本次出访参加国际人工智能领域顶级学术会议 AAAI(Association for the Advancement of Artificial Intelligence)2025。该会议是全球人工智能研究领域最具影响力的学术盛会之一,每年吸引来自学术界、工业界的顶尖学者和研究人员,展示前沿技术成果并探讨人工智能的未来发展方向。本届会议于美国费城举办,主题聚焦“人工智能与人类社会的协同创新”,涵盖机器学习、计算机视觉、人机交互、多模态感知等多个前沿领域。
我以第一作者身份完成的论文《Capturing the Unseen: Vision-Free Facial Motion Capture Using Inertial Measurement Units》(以下简称“论文”)被AAAI 2025接收为海报(Poster)论文。这项研究突破传统视觉依赖的面部动作捕捉技术框架,提出了一种基于惯性测量单元(IMU)的全新解决方案,旨在通过轻量化、低成本的硬件设备实现高精度面部运动数据采集。论文的创新性与技术价值得到了评审专家的高度认可,最终从全球上万篇投稿中脱颖而出,成为计算机视觉与人机交互领域的亮点成果之一。
研究背景与项目意义在于:传统面部动作捕捉技术严重依赖摄像头、深度传感器或复杂的光学标记系统,存在设备成本高、计算资源消耗大、隐私敏感场景受限等问题。例如,在医疗康复、虚拟现实(VR)交互或特殊环境(如暗光、遮挡场景)中,传统技术的应用面临显著瓶颈。针对这一痛点,本研究团队历时一年零三个月,提出了一种“去视觉化”的颠覆性思路,将微型IMU传感器嵌入轻量化头戴设备,通过捕捉面部肌肉微运动产生的惯性数据,结合自主开发的深度学习算法,实现了无需摄像头的高效动作重建。
图 1 面部采集系统概览
本研究是一项跨学科的综合性工程,涵盖硬件设计、数据采集、算法开发三大核心模块,具有显著的技术挑战性与前瞻性:
· 硬件创新:团队自主研发了微型IMU传感器阵列,通过优化布局与信号滤波技术,解决了传感器精度与佩戴舒适度的矛盾;
图 2 面部采集系统硬件图示
· 数据集构建:在无公开数据可借鉴的情况下,联合生物力学实验室采集了超500小时的多模态面部运动数据,涵盖表情、微动作、语言发音等多种场景,为算法训练提供扎实基础;
· 算法突破:提出基于时空注意力机制的神经网络模型(ST-IMU-Net),将惯性信号与面部解剖学特征深度融合,显著提升运动轨迹重建的准确性与实时性。
本次参会中,我布置与讲解海报(Poster Session),展示研究成果。作为论文第一作者,我需在大会指定的 Poster Session 中独立完成研究成果的视觉化呈现与现场讲解。以图文并茂的形式展示论文核心创新点,包括 IMU传感器硬件设计原理、多模态数据集构建流程 以及 ST-IMU-Net算法框架 的技术优势,突出“无视觉化”方案的突破性价值。我在现场互动与答疑,向参会学者、企业代表详细阐释技术细节,重点回应“IMU信号噪声抑制”“跨用户泛化能力”等关键问题,收集反馈以优化后续研究。通过分发研究摘要与建立联系,吸引潜在合作者关注,推动技术在多领域(如医疗康复、元宇宙交互)的应用探索。
会议期间,我全程参与 Keynote Speech、Tutorials 及 Invited Talks,重点关注以下方向:
· 人工智能基础理论:包括吴恩达(Andrew Ng)主讲的 “生成式AI的伦理边界与工程化落地”,探讨大模型时代的技术风险与解决方案;
· 传感器融合与边缘计算:学习如何将IMU、触觉等模态数据与轻量化AI模型结合,为后续硬件-算法协同优化提供方法论支持;
· 人机交互新范式:关注MIT Media Lab等团队在“无标记动作捕捉”“隐私友好型感知”领域的最新成果,对比分析自身研究的差异化优势。
在其他工作的报告中,我学习了记录其他IMU相关工作,Diffusion架构等创新方法,探索将其迁移至面部动作分析的可能性;进行趋势分析报告:整理会议中高频出现的 “具身智能(Embodied AI)”等热点方向,为团队下一阶段研究选题提供依据。
本次AAAI 2025会议之行,不仅是一次学术成果的展示与交流,更成为个人科研视野、职业认知乃至家国情怀升华的重要契机。通过深度参与会议议程、对接学界与工业界资源。在Poster环节,来自国内外等顶尖高校的学者对团队提出的“无视觉化面部捕捉”方案表现出浓厚兴趣,认为其“低成本、高鲁棒性”的特点可填补传统技术的市场空白。
通过与企业展台、学界领袖的互动,我对“产学研边界消弭”这一趋势有了具象化认知,工业界需求驱动学术创新:在数字人展台,其首席工程师提到面部驱动、语音动作融合是工业界核心痛点,这与我们研究中“轻量化动作采集方案”的目标高度契合。学术界成果反哺产业升级,学术界的前沿探索可直接提升企业产品的技术壁垒。
本次AAAI会议之行收获颇丰,我不仅展示了研究成果,还与全球顶尖的科研人员深入讨论,收获了反馈和合作机会。我们将持续努力,在多模态、动作捕捉等领域推动学术界发展和产业的产品效果。
图 3 海报讲解