科研进展 | 信息学院张海鹏课题组在金融与人文数据挖掘领域取得系列进展

发布时间:2025-11-26浏览次数:105

上海科技大学信息科学与技术学院张海鹏课题组致力于数据挖掘的理论与应用研究,探索金融、人文、社交等领域的大规模人类行为的规律、影响和机制,支持相关领域的智能决策。近日,课题组在风险投资成功预测、古诗词情感分析以及大语言模型泛化机制方面取得多项研究成果,发表于国际学术期刊ACM Transactions on Intelligent Systems and Technology (ACM TIST) 、国际人工智能联合会议International Joint Conference on Artificial Intelligence, IJCAI)及国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics, ACL)。




基于动态图神经网络的风险投资成功预测方法


识别具有高潜力的初创企业对风险投资(VC)机构和政策制定者至关重要,但大多数初创企业最终都会失败,早期阶段企业的存活率更低。课题组基于全球40年的风险投资数据,将VC生态系统建模为连接初创企业与个人(投资者/管理团队)的动态二部图网络(图1),提出了一种预测初创企业在首轮融资后5年内能否成功的方法(图2)。实验表明,该模型能够识别出成功概率是专业投资者所选企业两倍的早期初创企业。模型识别出人脉资源、教育背景等关键成功因素,与风险投资文献的研究结论一致。

图片

图1 风险投资生态系统示意图


图片

图2 风险投资成功预测模型图


成果以题为Help Me Screen: Analyzing and Predicting the Success of Start-ups in Dynamic Venture Capital Networks发表在ACM TIST期刊上。上海科技大学是第一完成单位,信息学院硕士毕业生吕世伟、李笑风为论文的共同第一作者,美国马里兰大学张坤鹏教授、上科大张海鹏教授为共同通讯作者。相关课题曾获上海市金融学会青年课题一等奖,并入选《上海科技年鉴》。


论文链接:

https://dl.acm.org/doi/pdf/10.1145/3763001 




多模态中华古典诗歌情感分析框架


中华古典诗歌的情感表达不仅依赖文字内涵,更通过韵律节奏与画面意象共同传递(图3)。现有研究多聚焦于文本分析,忽略了诗歌特有的音韵特征与视觉元素,导致情感理解不够全面。为此,课题组设计了一种融合语音、视觉与文本的三模态中文表征框架(图4),首次将方言音频特征与生成式视觉特征引入古典诗歌的情感分析中。该框架在公开数据集上达到最优性能。研究还发现,方言特征对地域性诗歌的情感分类具有显著提升作用。


图片

图3 中华诗词的音韵、意象与文本语义示例


图片

图4 多模态中华古典诗歌情感分析框架


成果以Picturized and Recited with Dialects: A Multimodal Chinese Representation Framework for Sentiment Analysis of Classical Chinese Poetry为题发表于IJCAI 2025。上海科技大学是第一完成单位,信息学院2023级硕士研究生杜晓聪、2024级硕士研究生裴昊宇为共同第一作者,张海鹏教授为通讯作者。


论文链接:

https://www.ijcai.org/proceedings/2025/0310.pdf 




Transformer模型在算术任务中的泛化机制研究


Transformer模型在数学计算中表现优异,但其泛化能力存在明显局限。当模型在固定位数(如3位数)运算上训练时,能完美处理相同位数的未见数据,但遇到更长位数(如5位数)计算就会出错。这种长短不一的泛化差异背后存在规律性:模型学会了将长数字通过模运算映射到训练时见过的等价类上进行计算,如将12345+67890转化为345+890处理。该研究首次从任务结构本质出发,阐明了不同算术运算(加法、乘法、模运算)的泛化差异机制。该发现为改进模型训练提供了指导,通过精准控制训练数据分布,可提升模型在真实场景中的泛化能力。


相关成果以Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks为题发表于ACL 2025。上海人工智能实验室徐兴成为论文第一作者,上科大信息学院本科毕业生赵梓博(现就读于美国亚利桑那州立大学)为第二作者,上科大张海鹏教授与原复旦大学杨燕青教授(现为上科大教育、创新与可持续发展研究中心研究员)为共同通讯作者。


论文链接:

https://aclanthology.org/2025.acl-long.235.pdf