微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源5 月 27 日

微软研究院联合清华大学北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务,在 RewardBench 和 PandaLM Test 基准测试中表现突出,尤其在复杂查询中有效利用测试时计算资源,显著超越基线模型。研究显示,模型规模扩大和更长推理时间可进一步提升准确性。

企业微信二维码