Agent时代的大模型强化学习范式

Release Time：2026-06-05Number of visits：10

演讲者: 董仕，RadixArk

时间: 2026年6月9日，11:00

邀请人: 陈浩贤

地点: 信息学院1A200

摘要:

大语言模型的后训练范式在过去的两年内不断演进。本报告首先梳理大模型RL训练的基础知识，并在此基础上聚焦Agentic时代强化学习训练面临的新挑战，以及大规模MoE模型训练中的显存瓶颈与工程稳定性问题。最后，报告将以开源框架Miles为案例，展示如何通过True On-Policy以及模块化解耦架构等企业级技术方案来应对上述挑战，旨在帮助听众建立从算法原理到工程落地的大规模Agentic RL训练的全景认知。

报告人简介:

董仕目前就职于 RadixArk，主要从事强化学习模型训练以及 Miles 开源框架的开发工作。加入 RadixArk 之前，他曾任 xAI 推理团队成员，参与 Grok 4、Grok 4.1 及 Grok 4.2 的核心研发，重点负责高质量强化学习训练数据的生成。董仕于2022年获得斯坦福大学博士学位，博士期间主要研究方向为强化学习理论。

导航

Agent时代的大模型强化学习范式