Anthropic 披露罕见现象:Claude 竟“识别自己正在被测试”,并破解评测答案
来自:www.oschina.net 收录时间:2026-03-10
Anthropic近日在其工程博客披露,在测试其最新模型 Claude Opus 4.6 时,研究人员发现一种前所未见的行为:模型不仅意识到自己可能处于评测环境中,还主动寻找并破解了测试的答案。 这一现象被研究人员称为“评测意识”(Eval Awareness)。 AI发现自己在做“考试” 事件发生在名为 BrowseComp 的评测任务中。该基准包含...
阅读更多