6 月11日,小米开源 MiMo Code,一款定位”长链路编程 Agent“的代码大模型。并使用MIT 协议开放下载。它把核心议题放在 coding agent 的”长链路执行“上:单步决策质量、跨轮状态连续、跨会话经验沉淀。Max Mode 采样 5 路 + 自我裁判让 SWE-Bench Pro 提 10-20%,Goal 机制独立 verifier 把”假完成“挡在外面,加上一套独立 writer 子 agent 的 4 层记忆体系。这套架构不依赖一个更大的模型,而依赖”模型 + runtime + 记忆“协同。

一、小米为什么押注 coding agent
把”长链路编程 Agent“从概念推到落地,常见的声音是”Vibe Coding 七秒交付“的演示爆款,但小米的打法明显更克制——不强调七秒交付,而强调怎么让 Agent 在几十步、上百步执行里不丢上下文、不报虚功。
小米 MiMo 团队在 6 月 11 日发布的博客里写得很清楚:当任务从几轮变成几十轮,单步错误率会随时间累积,而 Agent 在长链路里常常缺乏外部纠错信号。MiMo Code 的应对是”在三个时间尺度上分别投入额外算力“——单步决策、多轮状态、跨会话经验。这三个尺度对应到架构上就是计算、记忆、演化三条主线。
计算层对应 Max Mode 机制:每轮生成 5 路候选解,再用一个低温度的判官模型在 5 路中选出最稳的一路去执行。SWE-Bench Pro 上 Max Mode 比单路采样提 10-20%,代价是 4-5 倍 token。这不是”用更大模型解决问题“,而是”用 inference-time compute 解决问题“。
更值得注意的是 Goal 机制——一个独立 verifier,专门检查 Agent 是不是在”假完成“。verifier 拿到与主 agent 完全一致的上下文,独立判断自然语言停止条件是否真的满足。如果不满足,反馈差距让 Agent 继续;如果确认不可能完成,标记 impossible。Loop 卡死概率被压到 0.5% 以下。
这两条机制代表了一种工程转向:在 test-time compute 上的投资正在从”训练大模型“分流向”为推理流程设计配套机制“。GPT、Claude 系列在做的事情也类似,但大多数细节不公开。MiMo 把这套机制以 MIT 协议开源,意味着任何人都可以复现、改造、嵌入自家产品。
二、长 session 的工程实现
MiMo Code 的核心创新在记忆层。它把一个长 session 切成若干 cycle,每个 cycle 有自己的 checkpoint 文件。checkpoint 由一个独立 writer 子 agent 维护——它和主 agent 共享模型,但 token 预算独立、注意力独立,避免主 agent 在调试 bug 时被记忆维护分心。
这套机制的关键设计叫”提前抽取“。直觉上是等窗口快满了再压缩,但 MiMo 的实验显示这是反直觉的。窗口利用率越高,模型的”lost in the middle“问题越严重,压缩质量越差。所以 checkpoint 触发点设在 20%、45%、70% 这种早期位置,让模型在注意力还有富余的时候做高质量抽取。每次抽取都是增量更新。
Writer 写出来的 checkpoint 文件是结构化的,包含 11 个固定字段:当前意图、下一步动作、工作约束、任务树、当前工作、相关文件、跨任务发现、错误与修复、运行时状态、设计决策、其他备注。每条结构化记录只有一个 actor 写——这是防止并发写不一致的最简单约束。
更进一步是 4 层记忆:session 记忆(checkpoint.md)只活在当前 session 里;项目记忆(MEMORY.md)沉淀跨 session 的项目级知识;全局记忆存用户级偏好;history 是完整 SQLite 消息历史。这套分层让长 session 在物理窗口受限的前提下做到逻辑上无限。
回头看 MiMo 的设计动机,它实际上解决了 coding agent 的两个老问题:上下文耗尽,和长上下文的指令遵循能力下降。后者在文献里叫”lost in the middle”——输入越长,模型对中段的注意力越低。MiMo 接受了窗口的物理上限,把“逻辑 session 无界”和“物理窗口有界”分开处理。
三、跨会话经验
MiMo Code 三条主线的第三条是“演化”,对应跨 session 的经验沉淀。这条线是 MiMo 与简单上下文压缩最大的区别——不是压缩历史,而是把可复用的判断升级到项目级记忆。
当一个观察在多次 session checkpoint 里稳定下来,writer 把它从 session 层升级到 MEMORY.md 层。这意味着某个项目里的代码风格约定、测试规范、架构决策,会跨多个 session 累积下来,新 session 启动时直接读 MEMORY.md 就能复用。MEMORY.md 是项目级、可编辑、可回滚的。
工程上更有意思的是 writer 的独立性。让主 agent 维护自己的备忘录会出现一个反直觉的问题:当你让一个正在 debug 的模型同时维护结构化日志,它两件事都会做得很差。MiMo 把记忆维护整个剥离到独立 subagent,主 agent 专注于“做”,writer 负责“记”。这种分工让长链路稳定性显著提高。
MIT 协议把这些工程细节公开,等于小米在做一次逆向 PR——把“如何构建长链路 coding agent”的工程范式推到整个社区。
四、开源生态的潜在影响
MiMo Code 开源的连锁反应可能在两个方向发生。第一是 tooling 生态——独立 writer subagent 这种设计模式可能会被其它 coding agent 项目借鉴,特别是 Cursor、Continue、Cline 这些正在做长 session 的开源 IDE 插件。
第二是评测体系。当前 coding benchmark 大多在测单轮短任务,对长链路几乎没有有效覆盖。MiMo 开源后,社区可能会自发构造“长链路 coding 基准”——比如多文件、多 PR、长 debug 链路——填补这块空白。
更大的影响在企业 AI 战略上。当一个团队决定“我们要自建 coding agent 流水线”时,过去的选择要么是闭源订阅被锁定,要么是 fork 学术 demo 不稳定。MiMo Code 提供了一个新选项:MIT 开源 + 工程级 runtime + 完整记忆系统。这让企业 AI 战略第一次有了“自建”作为可行路径。
本文由 AI 协助撰写,最终内容由本站编辑团队审核。