Anthropic Fable 网络安全争议: 研究员为何不满 guardrails

Anthropic 6 月 9 日发布的 Claude Fable 5，把网络安全社区得罪了一圈。TechCrunch 6 月 10 日以《Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable》为题，集中报道了这场争议，多位研究员在 X 与 Reddit 上吐槽：Fable 的 guardrails 太“过敏”，连读一篇安全博客都会被拒。

Fable 5 与 Claude Mythos 5 同源。Mythos 4 月仅限 Project Glasswing，6 月才扩展到 15 国 150 余家组织扫描关键基础设施漏洞；Fable 公开版要防止这模型被用于写恶意软件，所以加了网络安全与生物学的 guardrails。一旦触发，Fable 暂停对话并降级到 Claude Opus 4.8。

问题出在触发逻辑太粗糙。IBM X-Force 研究员 Valentina “Chompie” Palmiotti 在 X 上说：“Fable 会拒绝任何可能与网络沾边的请求，连读一篇博客这种无害任务都不放过。” Tolmo 的 Matt Suiche 告诉 TechCrunch：“看起来是基于关键词的，任何在’网络安全’语义场里的词都会触发；如果你让它写安全代码，它会假设这就是网络安全相关，然后降级。”另一名研究员在 X 上抱怨，“连请求一次代码审查都会触发”。

Anthropic 自己公布的 guardrails 触发率不足 5%，但研究员们的实测明显高于这个数字。Reddit 的 r/ClaudeCode 板块一篇《Fable refusing every request related to [cyber]》因此引发共鸣。

社区的怒气并非没有出口。Anthropic 设有 Cyber Verification Program，通过认证的研究员可获得更宽松权限；OpenAI 也有同类项目 Trusted Access for Cyber。问题在于普通研究员要先跨过申请门槛，才能用上 Fable 的满血能力。

桌面端的 Claude Desktop 同样在最近几个月累积了一肚子意见。GitHub issue #29045 报告：Claude Desktop 每次启动都会拉起一个 1.8 GB 的 Hyper-V 虚拟机（Vmmem），即便用户只用聊天功能，也“no way of stopping it”（没办法停）。报告者 davidellett 还发现 2689 个残留的 agent 模式会话文件从未被清理，清空后重启应用，VM 立刻重生。这条 issue 拿到 47 个 emoji 反应，但 Anthropic 给它贴了“invalid”标签，至今未修。

量子位 6 月 10 日的实测则给出另一面视角：《Claude Fable 5 首日实测，杀疯了……》与《Claude Mythos 5 发布！5000 万行代码 1 天搞定》，展示了 Fable / Mythos 在通用编码、海量代码仓库场景下的强能力。Anthropic 在能力上确实迈了一大步，但网络安全这块，guardrails 显然还在“早期”。

独立博客 Sam Wilkinson 干脆给 Anthropic 的命名体系写了份“严肃推演”，文章就叫《Anthropic’s Model Naming, Extrapolated》。Fable = “Mythos，直到问题变得重要”；Fable (xhigh) = “破产速通”；Mythos = “Opus, but scary”。这份黑色幽默清单在 Hacker News 上迅速传开，折射的恰是当下社区对 guardrails 精细度的普遍失望。

争议的核心是：当一个 AI 模型能力已经接近“专家级”时，它的安全笼到底该造多紧。太松会被滥用，太紧连正当研究者也被挡在门外。Suiche 总结得很到位——早期限严再慢慢放松，至少比“放出去再补救”安全；但 Anthropic 现在要补的，是 guardrails 的“分辨率”。

本文由 AI 协助撰写，最终内容由本站编辑团队审核。

Anthropic Fable 网络安全争议: 研究员为何不满 guardrails

发表回复取消回复

标签云

最近文章

分类

<img width="200" height="58" class="logo" src="https://blog.dgqrs.cn/wp-content/themes/onenice-3.8.6/static/images/blog-witness-logo-v2.svg" alt="千榕观察 · Qianrong Witness" />

Anthropic Fable 网络安全争议: 研究员为何不满 guardrails

相关文章

发表回复 取消回复

发表回复取消回复