Anthropic 6 月 9 日发布的 Claude Fable 5,把网络安全社区得罪了一圈。TechCrunch 6 月 10 日以《Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable》为题,集中报道了这场争议,多位研究员在 X 与 Reddit 上吐槽:Fable 的 guardrails 太“过敏”,连读一篇安全博客都会被拒。

Fable 5 与 Claude Mythos 5 同源。Mythos 4 月仅限 Project Glasswing,6 月才扩展到 15 国 150 余家组织扫描关键基础设施漏洞;Fable 公开版要防止这模型被用于写恶意软件,所以加了网络安全与生物学的 guardrails。一旦触发,Fable 暂停对话并降级到 Claude Opus 4.8。

问题出在触发逻辑太粗糙。IBM X-Force 研究员 Valentina “Chompie” Palmiotti 在 X 上说:“Fable 会拒绝任何可能与网络沾边的请求,连读一篇博客这种无害任务都不放过。” Tolmo 的 Matt Suiche 告诉 TechCrunch:“看起来是基于关键词的,任何在’网络安全’语义场里的词都会触发;如果你让它写安全代码,它会假设这就是网络安全相关,然后降级。”另一名研究员在 X 上抱怨,“连请求一次代码审查都会触发”。

Anthropic 自己公布的 guardrails 触发率不足 5%,但研究员们的实测明显高于这个数字。Reddit 的 r/ClaudeCode 板块一篇《Fable refusing every request related to [cyber]》因此引发共鸣。

社区的怒气并非没有出口。Anthropic 设有 Cyber Verification Program,通过认证的研究员可获得更宽松权限;OpenAI 也有同类项目 Trusted Access for Cyber。问题在于普通研究员要先跨过申请门槛,才能用上 Fable 的满血能力。

桌面端的 Claude Desktop 同样在最近几个月累积了一肚子意见。GitHub issue #29045 报告:Claude Desktop 每次启动都会拉起一个 1.8 GB 的 Hyper-V 虚拟机(Vmmem),即便用户只用聊天功能,也“no way of stopping it”(没办法停)。报告者 davidellett 还发现 2689 个残留的 agent 模式会话文件从未被清理,清空后重启应用,VM 立刻重生。这条 issue 拿到 47 个 emoji 反应,但 Anthropic 给它贴了“invalid”标签,至今未修。

量子位 6 月 10 日的实测则给出另一面视角:《Claude Fable 5 首日实测,杀疯了……》与《Claude Mythos 5 发布!5000 万行代码 1 天搞定》,展示了 Fable / Mythos 在通用编码、海量代码仓库场景下的强能力。Anthropic 在能力上确实迈了一大步,但网络安全这块,guardrails 显然还在“早期”。

独立博客 Sam Wilkinson 干脆给 Anthropic 的命名体系写了份“严肃推演”,文章就叫《Anthropic’s Model Naming, Extrapolated》。Fable = “Mythos,直到问题变得重要”;Fable (xhigh) = “破产速通”;Mythos = “Opus, but scary”。这份黑色幽默清单在 Hacker News 上迅速传开,折射的恰是当下社区对 guardrails 精细度的普遍失望。

争议的核心是:当一个 AI 模型能力已经接近“专家级”时,它的安全笼到底该造多紧。太松会被滥用,太紧连正当研究者也被挡在门外。Suiche 总结得很到位——早期限严再慢慢放松,至少比“放出去再补救”安全;但 Anthropic 现在要补的,是 guardrails 的“分辨率”。


本文由 AI 协助撰写,最终内容由本站编辑团队审核。