ARC-AGI-2 基准测试发布:AI 模型表现惨淡,效率指标成智能评估新维度
来自:www.oschina.net 收录时间:2025-03-25
Arc Prize Foundation近日推出全新AGI基准测试ARC-AGI-2,旨在更精准衡量AI模型的通用智能水平。 测试结果显示,当前主流模型的平均得分仅为1%-1.3%,远低于人类平均60%的基准。该测试由知名AI研究者François Chollet联合发起,通过视觉逻辑谜题评估AI的跨领域推理能力,并首次引入“效率”指标,直指行业长期忽视的算力...
阅读更多