OpenAI 推出代码生成评估基准

2024 年 8 月 14 日

OpenAI 推出了一个用于评估 AI 模型解决现实世界软件问题的基准 ——SWE-bench Verified，这是对原有 SWE-bench 的改进版本。这个基准旨在更可靠地评估 AI 模型解决真实软件问题的能力，随着 AI 系统越来越接近通用人工智能（AGI），对于评估它们的能力的要求也越来越高。

OpenAI 推出 SWE-bench Verified：现有框架低估模型软件工程能力

华尔街见闻

OpenAI 推出代码生成评估基准

第一财经

OpenAI 推出 SWE-bench Verified

36Kr

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。