微软发布开源数学推理模型 rStar2-Agent,参数规模为 14B,通过智能思考而非延长推理时间,实现与 6710 亿参数模型相当的性能。该模型具备自主规划、推理和使用代码工具的能力,采用 GRPO-RoC 算法、高效 RL 基础设施和多阶段训练方案,在有限资源下实现高效训练,并在多个任务中展现强大泛化能力。