微软发布开源数学推理模型 rStar2-Agent

2025 年 9 月 2 日

微软发布开源数学推理模型 rStar2-Agent，参数规模为 14B，通过智能思考而非延长推理时间，实现与 6710 亿参数模型相当的性能。该模型具备自主规划、推理和使用代码工具的能力，采用 GRPO-RoC 算法、高效 RL 基础设施和多阶段训练方案，在有限资源下实现高效训练，并在多个任务中展现强大泛化能力。

开源中国

14B 打败 671B 微软 rStar2-Agent 在数学推理上超过 DeepSeek-R1

机器之心 / 网易科技

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。