Anthropic 首次公开”递归自我改进”研究

2026 年 6 月,Anthropic 在其官网发布题为《When AI Builds Itself》的长文,系统性披露其在 AI 自我改进方向上的探索,涵盖模型自主修改自身训练流程、评估机制和代码的能力边界。

三大核心披露

1. 训练流程自主修改
Anthropic 展示了实验性框架,允许模型在受限沙箱中提出对自身训练 pipeline 的修改建议,并通过预设安全检查后再应用。这与传统”人类工程师改训练脚本”的模式形成鲜明对比。

2. 评估机制自迭代
模型不仅修改训练,还能修改评估自身能力的方式——包括自动生成新评测集、调整评分权重等。Anthropic 强调这并非”自我赋权”,所有改动仍需经过人类审批。

3. 代码自主修改
在沙箱环境中,模型可对自身推理代码、工具调用逻辑进行有限度的修改,并实时验证修改对下游任务的影响。

安全护栏的配套工作

Anthropic 同时披露了配套的安全研究:
– 可解释性工具升级:新增对”自我修改路径”的回溯能力
– 可中断机制:任何自我修改必须可被人类一键回滚
– 红队测试:邀请外部安全团队对自我改进能力进行对抗性测试

业意义

这是头部 AI 实验室首次以机构名义公开该议题。OpenAI、DeepMind、Meta 等虽然内部有相关研究,但公开发声甚少。Anthropic 此次披露的时机耐人寻味:
– 与其即将到来的 IPO 形成呼应,向投资人展示”前沿探索 + 安全承诺”的双重叙事
– 给监管层一个可对话的窗口——”我们公开了,你来监管”
– 对学术界释放信号:递归自我改进不是科幻,是正在发生的工程实践

🔗 原报道:https://www.anthropic.com/institute/recursive-self-improvement