技术文摘 - 程序员工具箱

OpenAI 和 Anthropic “互测”模型安全性

来自：www.oschina.net 收录时间：2025-08-28

OpenAI与Anthropic完成了首次跨实验室联合安全评估，双方互相测试了对方的公开模型，重点关注误对齐、指令遵循、幻觉、越狱等风险，并同步发布了完整报告。评估范围覆盖Claude Opus 4、Claude Sonnet 4、GPT-4o、GPT-4.1、OpenAI o3、OpenAI o4-mini。测试均通过公共API进行，部分场景放宽了外部防护以模拟高危能力测试...

阅读更多