OpenAI 和 Anthropic “互测”模型安全性
来自:www.oschina.net 收录时间:2025-08-28
OpenAI与Anthropic完成了首次跨实验室联合安全评估,双方互相测试了对方的公开模型,重点关注误对齐、指令遵循、幻觉、越狱等风险,并同步发布了完整报告。 评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini。测试均通过公共API进行,部分场景放宽了外部防护以模拟高危能力测试...
阅读更多