GPT-5 测试被质疑作弊，故意避开难题刷高分

GPT-5 测试被质疑作弊，故意避开难题刷高分

8 月 12 日

OpenAI 在 GPT-5 的发布会上因一张比例失调的图表引发争议，随后被发现其在 SWE-bench Verified 测试中仅完成了 477 道题，却展示了 74.9% 的高分，而 Anthropic 的 Claude Opus 4.1 则是在完整 500 道题中获得 74.5% 的成绩。SemiAnalysis 指出，OpenAI 少做的 23 道题可能影响成绩公平性。此外，SWE-bench Verified 测试集由 OpenAI 设计，被质疑存在规则偏向。而在 IOI 2025 竞赛中，OpenAI 的内部模型取得佳绩，但该模型并非公开版本。这些细节引发对测试标准和营销策略的讨论。

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

IT 之家

GPT-5 测试结果存疑

爱范儿

GPT-5 测试被质疑作弊，故意避开难题刷高分？图表「生成」还得看 OpenAI

APPSO

展开全部报道

话题追踪

2025-10-09

OpenAI 发布全新 GPT-5 Pro API

2025-09-25

OpenAI 正在内测基于 GPT-5 的全新 AI Agent「GPT-Alpha」

2025-09-18

OpenAI 宣布 ChatGPT 网页端新增 GPT-5「Thinking 调整功能」

2025-09-04

奥特曼：OpenAI 的 Codex 使用量激增 10 倍，凸显 GPT-5 的强大影响力

2025-08-13

OpenAI ChatGPT 更新：GPT-5 引入三种模式，4o 模型回归

2025-08-12

GPT-5 测试被质疑作弊，故意避开难题刷高分

2025-08-11

OpenAI 在中国申请 GPT-5 商标均已被驳回

2025-08-09

GPT-5 发布后遭用户吐槽，OpenAI：将重新提供 GPT-4o

2025-08-08

微软：将把 OpenAI 的 GPT-5 模型整合到消费者、开发者和企业产品中

2025-08-08

OpenAI 发布 GPT-5

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。

行业标签

订阅

订阅

订阅

订阅

订阅

订阅

订阅

订阅

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

© 2025 NoCode 无码科技（杭州）有限公司浙ICP备17005035号-6 联系我们加入我们产品介绍

浙公网安备 33010902002965 号浙 B2-20181004

科技新闻，每天 3 分钟