OpenAI 在 GPT-5 的发布会上因一张比例失调的图表引发争议,随后被发现其在 SWE-bench Verified 测试中仅完成了 477 道题,却展示了 74.9% 的高分,而 Anthropic 的 Claude Opus 4.1 则是在完整 500 道题中获得 74.5% 的成绩。SemiAnalysis 指出,OpenAI 少做的 23 道题可能影响成绩公平性。此外,SWE-bench Verified 测试集由 OpenAI 设计,被质疑存在规则偏向。而在 IOI 2025 竞赛中,OpenAI 的内部模型取得佳绩,但该模型并非公开版本。这些细节引发对测试标准和营销策略的讨论。