阿里在 6 月 16 日中午一口气发了一组模型,统称 Qwen-Robot 系列,被官方称作“首个具身大模型三连发”。三款分别面向机器人感知-语言对齐、全身运动控制、以及多模态任务规划。这是 2026 年中文 AI 圈在“具身智能”这条赛道上,第一次由头部大厂以“系列化”姿态发布,而不是单点 demo。 值得单独看,是因为它把“具身大模型”这件事从过去一年零散的学术项目和初创公司试点,正式推到了“工业级可部署”的位置上。Qwen 系列之前在语言和多模态上的积累,这次被直接平移到了机器人本体。

cover
阿里三连发 Qwen-Robot 具身大模型 1

三款模型各自的角色

第一个是 Qwen-Robot-VLA(视觉-语言-动作),主要解决“看到图像、听懂指令、输出动作”的对齐问题。它把过去 VLM(视觉语言模型)的理解能力,直接接到机器人底层的动作空间上,中间不再需要任务级的“翻译器”或者人工写的状态机。换句话说,过去机器人要完成“把红色杯子放到桌上”这种指令,工程师得手写一连串 if-else,把“红色”、“杯子”、“桌上”这些语义信号翻译成机械臂轨迹;现在直接端到端,模型自己出轨迹。 第二个是 Qwen-Robot-Loco,聚焦全身运动控制。具身智能过去最大的工程难题不是“听懂指令”,而是“走得稳、站得住、不摔倒”。这个模型走的路线是把强化学习、模仿学习、以及大规模遥操数据(几百到几千小时)融合到同一个基础模型里,直接生成关节级的连续控制信号,而不是离散的“动作 token”。 第三个是 Qwen-Robot-Plan,是任务规划层。它在高层把“打扫房间”这种长时序任务,自动拆成“先去厨房拿抹布→回客厅→擦桌子→收拾椅子”这样的子任务,再下发到前两个模型执行。这一层在传统机器人栈里是经典的 Planning & Scheduling 问题,现在被多模态 LLM 接管。 三款组合起来,等于是“感知-动作层 + 运动控制层 + 任务规划层”的三层套娃,每一层都是一个独立可用的模型,也可以端到端打通。

为什么是“三连发”而不是“一款”

阿里这次选择“三连发”而不是发一个超大融合模型,背后的工程考量很直接。具身智能现阶段不存在一个“大一统模型”能搞定所有问题——感知、运动、规划各自的瓶颈、数据分布、推理时延都不一样,把它们硬塞进一个模型,反而会导致任何一层都跑不优。 把三层拆开的好处是,产业方可以按需取用。做机械臂抓取的厂商,可能只需要 VLA;做人形机器人的,可能主要用 Loco;做整屋服务机器人的,才需要把三个都接上。这种“分层可插拔”的设计,也意味着阿里的 Qwen-Robot 系列可以同时覆盖工业机器人、服务机器人、人形机器人三条赛道,而不是把自己限定在某一类硬件上。 另外一个隐含信号是,阿里在用 Qwen-Robot 来“卡位”具身智能的入口。过去一年,行业里已经出现了多家“具身基础模型”创业公司,路线各不相同。阿里这次把“三件套”一起发,等于告诉市场:具身智能不是单点创新,而是需要“基础模型 + 数据闭环 + 推理框架”的系统能力,这件事大厂可以做得比创业公司更系统。

对中文具身智能赛道的冲击

中文具身智能圈过去一年处于一个尴尬位置:学术上论文不少,但产业上能落地的旗舰产品不多。Qwen-Robot 系列出来后,情况会发生两个变化。 第一,创业公司的“基础模型”故事不好讲了。过去一年融资火热的那批具身基础模型公司,核心叙事是“我们要做机器人领域的 Llama 时刻”。现在阿里直接把“机器人领域的 Qwen”摆出来,而且是开源的,创业公司必须把故事升级到“在 Qwen-Robot 之上做应用层”或者“在某个垂直硬件上做到极致”,基础模型这层天然变薄。 第二,数据闭环和真实部署成为关键护城河。基础模型本身门槛被阿里打下来后,真正能拉开差距的是数据——尤其是真实机器人本体上采集的遥操数据。这部分数据过去是各家闭源的,现在会出现“用 Qwen-Robot 起步、自家数据微调”的新生态,类似于过去两年语言模型圈走过的路。

还差什么

虽然 Qwen-Robot 三件套在模型层面铺得很完整,但真正能跑出商业价值,还差三件事。 一是真实硬件的可靠性。仿真器里再完美的模型,放到真实机器人上都会遇到传感器噪声、关节间隙、负载扰动,这些问题在 demo 视频里看不出来,只有真正部署才会暴露。 二是数据规模和多样性。Qwen 系列在语言上的成功,建立在万亿 token 级的训练数据上;具身智能现在缺的不是算法,而是同等规模的多模态遥操数据,这件事不是大厂一周能补齐的。 三是产业应用的明确 ROI。机器人不是 chatbot,每一个部署动作背后都是真金白银的硬件成本。Qwen-Robot 出来后,阿里和合作伙伴必须用真实工厂、真实家庭场景里的“降本增效”数据来回答“为什么我应该换成 Qwen-Robot”这个问题。 但不管这三件事怎么解决,Qwen-Robot 三连发已经为 2026 年下半年的具身智能赛道定了一个新的起点:大厂正式进场,基础模型层被快速拉平,真正能跑出来的会是“硬件 + 数据 + 场景”组合做得最深的那批玩家。