GPT-5 测试被质疑作弊,故意避开难题刷高分
8 月 12 日

OpenAIGPT-5 的发布会上因一张比例失调的图表引发争议,随后被发现其在 SWE-bench Verified 测试中仅完成了 477 道题,却展示了 74.9% 的高分,而 AnthropicClaude Opus 4.1 则是在完整 500 道题中获得 74.5% 的成绩。SemiAnalysis 指出,OpenAI 少做的 23 道题可能影响成绩公平性。此外,SWE-bench Verified 测试集由 OpenAI 设计,被质疑存在规则偏向。而在 IOI 2025 竞赛中,OpenAI 的内部模型取得佳绩,但该模型并非公开版本。这些细节引发对测试标准和营销策略的讨论。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟