推理 AI 模型基准测试成本激增:评估一个或需近 3000 美元
来自:www.oschina.net 收录时间:2025-04-11
第三方 AI 测试机构 Artificial Analysis 数据显示,在七种流行的 AI 基准测试中评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。 在同一组测试中对 Anthropic 最新的 Claude 3.7 Sonnet进行基准测试的成本为 1,485....
阅读更多