技术文摘 - 程序员工具箱

推理 AI 模型基准测试成本激增：评估一个或需近 3000 美元

来自：www.oschina.net 收录时间：2025-04-11

第三方 AI 测试机构 Artificial Analysis 数据显示，在七种流行的 AI 基准测试中评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元：MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。在同一组测试中对 Anthropic 最新的 Claude 3.7 Sonnet进行基准测试的成本为 1,485....

阅读更多