苹果推出 AI 训练新方法 用任务清单替代人工评分显著提升模型性能8 月 26 日

苹果公司提出了一种名为「基于清单反馈的强化学习」(RLCF)的新训练方法,通过生成具体任务清单并进行精确评分,提升大语言模型执行复杂指令的能力。与传统依赖人工点赞的 RLHF 方法不同,RLCF 为每条指令制定详细检查清单,并按 0-100 分标准评分,指导模型优化。测试结果显示,该方法在多个评测基准上均取得性能提升,尤其在复杂多步骤任务中表现突出。技术上,团队使用大规模模型构建了包含 13 万条指令的「WildChecklists」数据集,通过逐项评分形成奖励信号。但该方法也存在一定局限,如依赖强大模型和无法替代安全评估机制。专家认为,RLCF 为 AI 训练提供了新思路,未来有望在实际应用中发挥作用。

企业微信二维码