Anthropic 公开”递归自我改进”研究进展，首次以机构名义披露 AI 自我修改训练流程能力边界

1个月前

Anthropic 首次公开”递归自我改进”研究

2026 年 6 月，Anthropic 在其官网发布题为《When AI Builds Itself》的长文，系统性披露其在 AI 自我改进方向上的探索，涵盖模型自主修改自身训练流程、评估机制和代码的能力边界。

三大核心披露

1. 训练流程自主修改
Anthropic 展示了实验性框架，允许模型在受限沙箱中提出对自身训练 pipeline 的修改建议，并通过预设安全检查后再应用。这与传统”人类工程师改训练脚本”的模式形成鲜明对比。

2. 评估机制自迭代
模型不仅修改训练，还能修改评估自身能力的方式——包括自动生成新评测集、调整评分权重等。Anthropic 强调这并非”自我赋权”，所有改动仍需经过人类审批。

3. 代码自主修改
在沙箱环境中，模型可对自身推理代码、工具调用逻辑进行有限度的修改，并实时验证修改对下游任务的影响。

安全护栏的配套工作

Anthropic 同时披露了配套的安全研究：
– 可解释性工具升级：新增对”自我修改路径”的回溯能力
– 可中断机制：任何自我修改必须可被人类一键回滚
– 红队测试：邀请外部安全团队对自我改进能力进行对抗性测试

业意义

这是头部 AI 实验室首次以机构名义公开该议题。OpenAI、DeepMind、Meta 等虽然内部有相关研究，但公开发声甚少。Anthropic 此次披露的时机耐人寻味：
– 与其即将到来的 IPO 形成呼应，向投资人展示”前沿探索 + 安全承诺”的双重叙事
– 给监管层一个可对话的窗口——”我们公开了，你来监管”
– 对学术界释放信号：递归自我改进不是科幻，是正在发生的工程实践

🔗 原报道：https://www.anthropic.com/institute/recursive-self-improvement

Anthropic 公开”递归自我改进”研究进展，首次以机构名义披露 AI 自我修改训练流程能力边界

发表回复取消回复

标签云

最近文章

分类

<img width="200" height="58" class="logo" src="https://blog.dgqrs.cn/wp-content/themes/onenice-3.8.6/static/images/blog-witness-logo-v2.svg" alt="千榕观察 · Qianrong Witness" />

Anthropic 公开”递归自我改进”研究进展，首次以机构名义披露 AI 自我修改训练流程能力边界

相关文章

发表回复 取消回复

发表回复取消回复