演讲者: 董仕,RadixArk
时间: 2026年6月9日,11:00
邀请人: 陈浩贤
地点: 信息学院1A200
摘要:
大语言模型的后训练范式在过去的两年内不断演进。本报告首先梳理大模型RL训练的基础知识,并在此基础上聚焦Agentic时代强化学习训练面临的新挑战,以及大规模MoE模型训练中的显存瓶颈与工程稳定性问题。最后,报告将以开源框架Miles为案例,展示如何通过True On-Policy以及模块化解耦架构等企业级技术方案来应对上述挑战,旨在帮助听众建立从算法原理到工程落地的大规模Agentic RL训练的全景认知。
报告人简介:
董仕目前就职于 RadixArk,主要从事强化学习模型训练以及 Miles 开源框架的开发工作。加入 RadixArk 之前,他曾任 xAI 推理团队成员,参与 Grok 4、Grok 4.1 及 Grok 4.2 的核心研发,重点负责高质量强化学习训练数据的生成。董仕于2022年获得斯坦福大学博士学位,博士期间主要研究方向为强化学习理论。


沪公网安备 31011502006855号


