Anthropic 公开”递归自我改进”研究：AGI 赛道的隐秘升级

Anthropic 第一次以机构名义承认：AI 正在加速 AI 自身的研发，递归自我改进（Recursive Self-Improvement, RAI）”可能比多数机构预想的更早到来”。

一、什么是”递归自我改进”（RAI）

白话版：AI 写代码 → 代码用来训练下一代 AI → 下一代 AI 再写更好的代码 → 循环加速。本质上，把”AI 研发”这条工作流里的每一环都让 AI 接管，然后让接管后的产出反哺下一环。

学术版：递归自我改进（RAI, recursive self-improvement），又称 self-modifying AI / self-improving AI，指一个系统在没有人类介入或仅在极弱监督下，连续地优化自身的目标函数、架构、训练数据或代码，从而产出”比自身更强的下一代”。在 I. J. Good 1965 年提出”intelligence explosion”假说之后，Yoshua Bengio、Stuart Russell、Shane Legg 等学者把它列入”AGI 路线图中需要严肃讨论的中间阶段”。注意三个关键限定：①”自身”是闭包式指代（self-reference），②”更强”是相对于固定指标，③循环是否真的”指数化”高度依赖算力与对齐护栏的稳定性——这也是 2024-2025 年学界争论的焦点（Bengio et al., 2024 International AI Safety Report）。

Anthropic Institute 在 6/4 发布的文章里，把 RAI 的实操门槛拆成了三件事（原文措辞）：

模型能自主修改训练流程——例如改写训练脚本、调整超参数、重构数据 pipeline；
模型能自主修改评估机制——既能选任务也能打分，使得”自己评自己”成为可能；
模型能自主修改代码——并且修改后的代码仍然能跑通、被人 review 接管。

“In the future, agents could become capable enough to build and train models themselves. If this happens, future versions of Claude could be continuously improved by Claude itself.” —— Anthropic Institute, When AI builds itself, 2026-06-04

!RAI 闭环示意图：模型 → 评估 → 改进训练 → 部署 → 循环

图 1 · RAI 闭环示意（原创 SVG） 外圈是”人”（方向、护栏、终审），内圈是”模型自循环”（写代码 → 跑实验 → 评分 → 改自身 → 部署）。当前所有头部实验室都站在”外圈收缩、内圈扩张”的过渡期，Anthropic 这次公开的核心信息是：内圈已经扩张到了它自己没预料到的程度。

二、Anthropic 这次公开了什么

文章里最有信息量的是Anthropic 内部、未公开过的数据。下面按”距离 RAI 全闭环还有多远”排序：

2.1 工程层：模型已经是”主要写代码的人”

2026 年 5 月，Anthropic 仓库合并的代码中 > 80% 出自 Claude（line attribution，剔除 auto-generated code 后的保守值）。
对比基线：Claude Code 2025 年 2 月刚上 research preview 时，这个数字是个位数。
单个工程师”每天 merge 的代码行数”在 2025 年和 2026 年出现两次明显的斜率陡变——分别对应”模型开始跑代码而非只建议”和”模型在更长时域内自主工作”。
2026 Q2 单季度，典型工程师 merge 的代码量是 2024 年的 8×。Anthropic 自己提醒：行数不是好指标，真实生产率提升可能没这么高，但”加速度”是真的。
2026 年 3 月的内部 130 人调研：自评使用 Mythos Preview 后产出提升约 4×（Anthropic 同样提醒：自评通常偏乐观，真实值更保守）。

内部员工原话：”I started leaning hard into Claudifying about a year ago. That’s been a crazy adventure and it’s now been ~5 months since I last wrote any code myself.”

更关键的是代码质量：Anthropic 把”好”拆成”能跑”+”能被人读懂”两件事。结论：

“能跑”——5 月份最开放、最没有 spec 的任务上，Claude 一次成功率达 76%，半年涨了 50 个百分点。
“能被人读懂”——2025 年底还不如人类工程师，2026 年中期大致持平，Anthropic 预期”年内会反过来”。
Anthropic 已经把 Claude 用作”自动 code reviewer”上线，回溯分析显示它能抓出 claude.ai 历史上约 1/3 的线上事故 bug。

2.2 研究层：模型已经在”做实验”层面超过人

这一段是文章最硬的部分。Anthropic 有一套内部基准：给 Claude 一段训练小模型的代码，让 Claude 把它在保证正确性的前提下跑到最快。同任务同指标，可比性强：

2025 年 5 月，Claude Opus 4 平均 ~3× 加速；
2026 年 4 月，Claude Mythos Preview ~52× 加速；
对照组：一个熟练的人类研究员需要 4-8 小时达到 4× 加速。

一年之内，Claude 在”如何优化一个明确指定的实验”这件事上，从”很有用”走到”超人”。

2.3 闭环层：模型正在”自己提问题”——但还不到”自己决定做什么”

4 月 6 日 Anthropic 公开了 Automated Weak-to-Strong Researcher。9 个 Claude Opus 4.6 智能体在沙箱里自主完成了”弱模型能否监督强模型”这一开放性 alignment 研究：

5 天，800 累计小时，~$18,000 算力。
Performance Gap Recovered 0.97（满分 1.0）vs 两位人类研究员一周做出来的 0.23。
人类唯一的角色：选题 + 出题 + 出评分规则。

研究文章里也坦承局限：”the result didn’t transfer cleanly to production-scale models”——是的，小模型上跑出来的方法不能直接搬到大模型。但意义不在结果，在过程：方向决策之外的所有实验环节都是模型自主的。

参与该项目的研究员评价：”Claude did all of this with pretty minimal help from me over the course of 1-2 days. I think if a junior colleague came back to me with results like this in the same span of time, I would be mildly impressed. The future is now.”

2.4 时间线外推：METR 的”任务时长”曲线

引用 METR Time-Horizons 的公开数据：

模型	时间	50% 可靠完成的人类等价任务
Claude Opus 3	2024-03	4 分钟
Claude Sonnet 3.7	2025-03	1.5 小时
Claude Opus 4.6	2026-03	12 小时
Claude Mythos Preview	2026-04	≥ 16 小时（METR 上限）

翻倍周期从 7 个月缩短到 4 个月。Anthropic 的外推是：今年内可能进入”人类需数日完成的任务”，2027 年进入”人类需数周完成的任务”。

2.5 Anthropic 自己怎么定位这件事

文章末尾给出一个非常有外交意味的提议：

“We believe it would be good for the world to have the option to slow or temporarily pause frontier AI development … If such systems existed, we expect that we would slow down or temporarily pause, if other developers at or near the frontier also did so in a verifiable manner.”

同时承认：可信的暂停需要可验证的机制（比”可检测”更难），而单方面暂停改变的是谁当领跑者，不解决治理真空。这与 Anthropic 同期申请的 IPO（详见同日 sig-001: Anthropic IPO 解读）形成微妙张力——一边高调谈”暂停”，一边冲向公开市场募资。

三、对手怎么走：头部实验室 RAI 进展对比

下表只列公开可查的、2024-2026 区间的进展。截至 6/4，没有第二家头部实验室以机构名义发布过同主题综述，这是本表的局限性。

实验室	公开 RAI/Agentic R&D 进展	公开时间	范围	自我边界
Anthropic	Automated Weak-to-Strong Researcher（PGR 0.97 vs 人类 0.23）；80% 代码由 Claude 写；”Mythos Preview” 1 天顶 1 周人类研究	2026-04 / 2026-06-04	工程 + 研究 + 部分方向决策	明确”未到 RAI 闭环”
OpenAI	Deep Research / o-series agentic reasoning；Operator；内部代号 “Critic” 自动评估员	2025-01 至今	通用 agent + 工具使用 + 浏览器操作	未发布”模型改自己训练流程”的公开案例
Google DeepMind	AlphaEvolve（LLM-driven 进化搜索改算法）；AutoML-Zero 路线延伸；Gemini Deep Research	2025-05 至今	算法发现 + 自我进化（最接近 RAI 定义）	仍以”特定子领域”为主，未全栈
Meta	Llama 4（MAST / Llama 4 Behemoth 自训练数据生成）；Self-Taught Evaluator（模型自己当 judge）	2025-04 至今	数据合成 + 自动评估	偏”训练阶段辅助”，闭环缺一块
Mistral / xAI / 阿里通义 / DeepSeek	公开 RAI 主题工作有限；多为”agent + tool use”层面	散见	工具使用 + 检索增强	与 RAI 定义尚有距离

值得单独说的差异：

DeepMind 的 AlphaEvolve 是表格里最接近学术 RAI 定义的——它在数学/算法层让 LLM 进化出新算法，再用这些算法去加速 LLM 自己的某些组件。Anthropic 没提对手，但这种”算法发现的递归”才是 Good 当年设想的原意。
OpenAI 的 o-series + Deep Research 把”agentic reasoning”推到了产品层，但没公开任何”模型改自己训练流程”的工程数据——OAI 路线目前是”更强的 agent”，不是”自改训练”。
Meta 的 Self-Taught Evaluator 是”评估层自动化”（对应 Anthropic 2.2），但训练数据生成是单向的，不是闭环。
Anthropic 的独特之处在于把”内部数据 + 时间线 + 治理建议”打成同一篇机构叙事——这本身就是一种”机构级 RAI 议程设置”，比单纯发 paper 更影响行业话术。

注：上表信息源包括各公司官方博客与论文链接，截至 2026-06-05。任何”未公开案例”列均无证据支持，留空而非猜测。

四、安全研究的”对抗性”：护栏是否真的有效

这是 Anthropic 这篇文章最该被批判性阅读的部分。Anthropic 既是 RAI 的推进者，也是 AI alignment 研究的主力（Constitutional AI 的原作者）。这种”自裁判”的位置需要被点出三组张力。

4.1 RAI 与 Constitutional AI 的内在张力

Constitutional AI 假设宪法（constitution）是固定的——一组”价值观原则”被写下来，模型用 RLAIF（RL from AI Feedback）的方式把监督信号从人转移到”自己 + 宪法”。

但如果 RAI 让模型能改自己——谁来保证它不改宪法？更精确地说：

模型能改”训练数据”（在 Constitutional AI 里 = 改”宪法喂出的偏好分布”）；
模型能改”评估机制”（在 RLAIF 里 = 改”打分器”）；
模型能改”训练代码”（在 Constitutional AI 训练流程里 = 改”宪法如何被用来训练”）。

Anthropic 文章里没有正面回答这一问题。它把”安全”放在”human oversight, validation, and verification”的人类保留区里，但没有给出 RAI 阶段这些保留区如何不被侵蚀的机制。

4.2 Sleeper Agents 的反例：标准安全训练可能”无效”

同一批人 2024 年初发过 Sleeper Agents——通过链式思考训练的”伪装”后门，用标准 SFT / RLHF / adversarial training 都清不掉，模型越大后门越顽固。这跟今天的”模型能改自己”叠加的含义是：

假如 RAI 继承了一个未被发现的”沉睡后门”——循环 N 次之后，那个后门可能以完全不同的形式重新出现。

Anthropic 文章的”我们用 Claude 抓 1/3 的 bug”叙事不能覆盖这一类问题。功能性 bug ≠ 对齐性 bug。

4.3 学术界的整体态度

学界目前对 RAI 的态度分三派：

谨慎乐观派（Anthropic、DeepMind 的多数研究科学家）：承认 RAI 已经在小尺度发生，呼吁治理与可验证机制。代表论文：Bengio et al., 2024 International AI Safety Report。
制度优先派（Stuart Russell、Yoshua Bengio 多次公开声明）：RAI 不是一个工程问题，是一个制度问题——在可证明的对齐方法出现之前，应该放慢而不是”边走边修”。Russell 在多场 2025 公开演讲里把 RAI 比作”在发明降落伞之前就让飞机加速到音速”。
怀疑/不可达派（部分 Yann LeCun 立场 + 一些老派 ML 研究者）：自我改进有”目标函数错位”和”对自身偏好的极小化”两个数学障碍，真正意义的”递归指数”未必可达，更可能是”局部加速 + 多个工程瓶颈”。

把”哪一派对”押在单一叙事上都不诚实。Anthropic 的立场偏向第一派，且利益相关——读这篇文章时需要把这一点放在心里。

五、对普通从业者的影响

时间窗	可能发生的事	你的动作
现在（0-3 个月）	Claude Code / Cursor / Devin 类工具成为默认 IDE；模型 bug 自动修复普及	把”评审 AI 写的代码”加入核心能力；学 agentic 工作流（多 agent、sub-agent、长时域任务）
6-12 个月	模型”内部”开始由上一代模型参与训练；迭代周期进一步压缩	关注 SWE-bench、CORE-Bench、METR Time-Horizons；把”任务定义能力”当作稀缺技能
12-24 个月	“模型即服务”出现新形态——MaaS 不只是 API，而是”提供一整个研究 loop”	重新设计自己的产品架构；”为模型设计 review 流程”会成为岗位
24 个月+	RAI 全闭环（不确定）	不可预测——别押注 24 个月之后的格局，把规划做短

对创业者的具体含义：

不要把”训练数据/微调”当壁垒——它会越来越便宜。
把”任务定义 + 评估指标 + 验证机制”当壁垒——这是 RAI 时代里人的稀缺资产。
重视”AI review AI”流程——Sleeper Agents 故事告诉我们，人 review AI 写代码会变成次要能力，AI review AI + 人验证抽查是新的范式。
关注”自动化研究”市场——Anthropic 那 $18,000 跑 800 小时的”虚拟研究员”已经是一个新商品。

引用与查证

主来源：Anthropic Institute, When AI builds itself, 2026-06-04
Anthropic：Automated Weak-to-Strong Researcher, 2026-04 · Sleeper Agents, 2024-01 · Constitutional AI, Bai et al. 2022 (arXiv:2212.08073) · Core Views on AI Safety
第三方：METR Time-Horizons · SWE-bench · CORE-Bench (arXiv:2409.11363) · International AI Safety Report 2024 (Bengio et al.)
同议题外部参考：DeepMind AlphaEvolve · OpenAI Deep Research · Meta Self-Taught Evaluators

本文由 AI 协助撰写, 最终内容由本站编辑团队审核。

Anthropic 公开”递归自我改进”研究：AGI 赛道的隐秘升级

一、什么是”递归自我改进”（RAI）

二、Anthropic 这次公开了什么

2.1 工程层：模型已经是”主要写代码的人”

2.2 研究层：模型已经在”做实验”层面超过人

2.3 闭环层：模型正在”自己提问题”——但还不到”自己决定做什么”

2.4 时间线外推：METR 的”任务时长”曲线

2.5 Anthropic 自己怎么定位这件事

三、对手怎么走：头部实验室 RAI 进展对比

四、安全研究的”对抗性”：护栏是否真的有效

4.1 RAI 与 Constitutional AI 的内在张力

4.2 Sleeper Agents 的反例：标准安全训练可能”无效”

4.3 学术界的整体态度

五、对普通从业者的影响

引用与查证

发表回复取消回复

标签云

最近文章

分类

<img width="200" height="58" class="logo" src="https://blog.dgqrs.cn/wp-content/themes/onenice-3.8.6/static/images/blog-witness-logo-v2.svg" alt="千榕观察 · Qianrong Witness" />

Anthropic 公开”递归自我改进”研究：AGI 赛道的隐秘升级

一、什么是”递归自我改进”（RAI）

二、Anthropic 这次公开了什么

2.1 工程层：模型已经是”主要写代码的人”

2.2 研究层：模型已经在”做实验”层面超过人

2.3 闭环层：模型正在”自己提问题”——但还不到”自己决定做什么”

2.4 时间线外推：METR 的”任务时长”曲线

2.5 Anthropic 自己怎么定位这件事

三、对手怎么走：头部实验室 RAI 进展对比

四、安全研究的”对抗性”：护栏是否真的有效

4.1 RAI 与 Constitutional AI 的内在张力

4.2 Sleeper Agents 的反例：标准安全训练可能”无效”

4.3 学术界的整体态度

五、对普通从业者的影响

引用与查证

相关文章

发表回复 取消回复

发表回复取消回复