上海科技大学信息科学与技术学院张海鹏课题组致力于数据挖掘的理论与应用研究,探索金融、人文、社交等领域的大规模人类行为的规律、影响和机制,支持相关领域的智能决策。近日,课题组在基于大模型的风险投资成功预测以及复杂金融长文档理解方面取得多项研究成果,被国际人工智能联合大会(International Joint Conference on Artificial Intelligence, IJCAI),以及国际计算语言学年会Findings (Findings of the Association for Computational Linguistics, ACL Findings) 正式接收。
基于大模型多智能体协同的风险投资成功预测方法
初创企业往往九死一生,仅极少数能带来可观回报,因此,识别高潜力初创企业对风险投资(VC)机构和政策制定者至关重要。在早期创投实践中,投资决策传统上高度依赖投资人的个人经验与行业直觉,面对高专业性的科创项目时,常面临“看不懂、估值难”的挑战,易受主观偏差影响。张海鹏课题组在数智驱动的风险投资成功预测方面开展了一系列研究,前序工作曾获上海市金融学会青年课题一等奖,并入选《2024上海科技年鉴》。
现有风险投资成功预测方法大多仅模拟单一投资人的视角,忽略了真实VC决策中的投资人群体效应:投资决策往往不是由单一投资人独立完成的,而是多位潜在投资人在联合投资网络中相互影响、共同形成的集体判断。为此,课题组提出基于角色扮演大语言模型与图神经网络监督的群体智能体系统SimVC-CAS(图1),将初创企业融资预测重构为多智能体协同决策过程:通过为每位潜在投资人构建异质化画像以模拟其个性化偏好,并设计带虚拟节点的图注意力网络(VGAT)以目标企业为全局查询节点,刻画以企业为中心的投资人交互模式。在PitchBook与Crunchbase的全球风险投资数据集上,SimVC-CAS在AP@10指标上比最强基线提升约25%,并展现出与真实投资人决策行为高度一致的拟人特征。

图1 SimVC-CAS系统架构图
成果以题为Beyond Isolated Investor: Predicting Startup Success via Roleplay-Based Collective Agents被IJCAI 2026接收。上海科技大学是第一完成单位,信息学院2024级硕士研究生刘忠洋为论文的第一作者,张海鹏教授为通讯作者。
论文链接:
https://faculty.sist.shanghaitech.edu.cn/zhanghp/papers/ijcai26_collective_agents_vc_predict.pdf
信息增益与专业知识驱动的风险投资大模型图推理框架
风险投资决策需要在企业基本面、投资人履历与庞大投资网络中综合多源证据进行显式推理。传统机器学习与图神经网络难以提供可审计的推理过程,而直接套用大语言模型则面临两方面挑战:一是投资网络规模庞大,有效证据难以筛选;二是缺乏风险投资领域的专业知识,难以像资深投资人那样基于行业方法论展开分析。为此,课题组提出MIRAGE-VC框架(图2),以信息增益为驱动从投资网络中蒸馏出紧凑的高价值证据子图,并构建涵盖风险投资理论与实操方法论的双层知识库以引导模型在领域知识中扎根推理。在PitchBook全球风险投资数据集上,MIRAGE-VC比最强基线在AP@5指标上取得22.1%的相对提升;在公开的全球风险投资数据集Crunchbase上同样取得一致的性能优势。资深风险投资专家评估进一步确认模型生成的投资决策书具有专业级的推理质量。

图2 MIRAGE-VC系统架构图
成果以题为Analyze Like a Venture Capitalist: Information-Gain and Knowledge Enhanced Graph Reasoning for Startup Success Prediction被ACL 2026 Findings接收。上海科技大学是第一完成单位,信息学院2024级硕士研究生裴昊宇为论文的第一作者,美国马里兰大学张坤鹏教授与上科大张海鹏教授为共同通讯作者。
论文链接:
https://faculty.sist.shanghaitech.edu.cn/zhanghp/papers/acl26findings_graph_reasoning_vc_predict.pdf
面向复杂金融长文档问答的卡片式大模型重排框架
上市公司财报等复杂金融长文档常长达数百页,正确回答其中的问题需要同时满足实体、财务指标、财务期间与具体数值等多重严格约束。现有基于大语言模型的重排器主要优化语义相关性,在长文档场景下排序不稳定且决策过程不透明,难以满足金融分析对可审计性的要求。为此,课题组提出FinCARDS框架(图3),将金融证据选择重新建模为基于金融感知Schema的约束满足问题:将文档片段抽象为带显式字段的结构化分析卡片,并通过多阶段锦标赛式重排与稳定性感知聚合机制产生可审计的决策轨迹。在两个企业财报问答基准上,FinCARDS显著提升了检索精度并降低了排序方差,无需模型微调即可在多种大语言模型后端上稳定生效。

图3 FinCARDS框架示意图
成果以题为FinCARDS: Card-Based Analyst Reranking for Financial Document Question Answering被ACL 2026 Findings接收。上海科技大学是第一完成单位,上科大信息学院2022级本科生周屹玺与东京大学张帆为共同第一作者,东京大学陈昱教授与上科大张海鹏教授为共同通讯作者。
论文链接:
https://faculty.sist.shanghaitech.edu.cn/zhanghp/papers/acl26findings_fin_doc_reranking_QA.pdf


沪公网安备 31011502006855号


