6 月 1 日台北小巨蛋,Jensen Huang 用 80 分钟把台北讲成了一座 AI 工厂的开工现场。从 Cosmos 3 这双”眼睛”、Isaac GR00T 1.7 这双手、Blackwell Ultra 这套”生产线”、Vera Rubin 这座”主厂房”全面投产,到与 Microsoft 签下的端云一栈协议——每一项单拎出来都值一场发布会,但 Jensen 把它们讲成了一座工厂的五个工位。这座工厂从台湾 25 家工厂、500 多家生态伙伴、超过 100 万件 MGX 机架组件上长出来,用推理 token 当燃料,用 agent 当工人,用 Azure 当外延车间。这是 NVIDIA GTC 台北 2026(6/1-6/4,台北国际会议中心)正式独立成站、与 COMPUTEX 2026(6/2-6/5,南港展館+世貿+ TICC,主题「AI Together」)并行办会的第一个年头。
一、奠基:「台北」本身就是这座工厂的厂区
理解 GTC 台北 2026 的关键,是先承认一件事:Jensen 这一回不是来台北「演讲」,是来给一座工厂剪彩。
COMPUTEX 2026(6/2-6/5)由台北市电脑公会主办,南港展览馆 1、2 馆、台北世贸中心、台北国际会议中心(TICC)四地联动,主题「AI Together」,焦点明确指向 AI 运算、机器人与智慧移动、次世代科技。NVIDIA GTC 台北 2026(6/1-6/4,主会场设于 TICC)则由 NVIDIA 独立运营,是继 GTC 圣何塞之后第一个正式挂牌的亚洲区域 GTC。
两个展会只差一天开幕,共享同一批观众、同一批供应链、同一组酒店。但官方身份是分开的:COMPUTEX 看「整机与生态」,GTC 台北看「AI 工厂与算力栈」。NVIDIA 把 keynote 放在 COMPUTEX 开幕前一天的 6 月 1 日上午 11 点,地点选在台北小巨蛋而不是 TICC 主会场——这是把剪彩仪式提前一天放在厂区门口:COMPUTEX 的氛围托起 GTC 的高密度内容,GTC 的内容给 COMPUTEX 的展商定调子。
6 月 1 日上午 11 点,Jensen 站上台北小巨蛋的舞台。keynote 当天同步发布的一篇官博里,NVIDIA 第一次公开了一组很具体的厂区数字:超过 100 万件 NVIDIA MGX 机架组件在台湾完成生产,跨越 25 家工厂;台湾有 500 多家 NVIDIA 生态伙伴参与 Vera Rubin 的全球量产。台积电、SPIL、Kinsus、KYEC、UMTC 在前段晶圆与封装,富士康、和硕、QCT、纬创、英业达在后段整机与服务器。
这条供应链从硅到整机,本来是行业里「闷头干活」的一环。NVIDIA 把它讲成了一则建厂故事:Vera Rubin 不是一颗芯片,而是一座需要 25 家台湾工厂、跨过太平洋、才能送进美国数据中心的协作产物。
放在三年前,这段话更像致敬台湾硬件生态的礼貌性发言。2026 年 6 月说这段话,味道完全变了。Jensen 不再是来感谢「各位合作伙伴」,他是来宣告一件事:当推理 token 取代训练算力成为新的瓶颈,谁先掌握「整机级」交付,谁就掌握下一代 AI 工厂的入场券。
GTC 台北站从 6 月 1 日开到 6 月 4 日,60 多场 session、Build-a-Claw 动手工作坊、NVIDIA 展台与 COMPUTEX 联合展区。台北市中心的台北国际会议中心与台北小巨蛋,在 96 小时内承担起「亚洲 AI 工厂」的全部内容输出。
值得一提的是 keynote 之前的「GTC Live Keynote Pregame」环节,由 Goldman Sachs 的 Bruce Lu 与 Gartner 的 Tracy Tsai 主持,把 TSMC 的 YJ Mii、Quanta 的 Barry Lam、Wistron 的 Simon Lin、Techman Robot 的 Haw Chen、华硕 Jonney Shih、MediaTek 的 Rick Tsai、Delta 的 Simon Chang、Pegatron 的 T.H. Tung、Foxconn 的 Kathy Yang,以及 NTU 的 Hung-yi Lee 凑到同一块屏幕前。Jensen 自己也来到 pregame 现场,话题是「AI 服务器浪潮」「从 PC 到嵌入式 AI」「用 agentic AI 与机器人重塑台湾产业」「为台湾建设 AI 基础设施」四条主线。这场 pregame 在官网上被单独点出来——NVIDIA 已经把「台北」当成 GTC 圣何塞之外唯一一个有 pregame 节目的区域站。台北不是路过,是主场。
二、看门人:Cosmos 3 是这座工厂的质检员与工艺师
一座工厂能不能把”想象”变成”实物”,取决于中间那道质检与工艺的工序。Jensen 这次在台北最重磅的发布,是 NVIDIA Cosmos 3——这座 AI 工厂的”看门人”。
官方把它定义成「全球首个完全开放的 omnimodel」,原生支持文本、图像、视频、环境音与动作的联合理解与生成。架构上用了「mixture-of-transformers」——一个推理 transformer 负责「看懂场景」,一个生成 transformer 负责「画出或写出后续」。
值得注意的,是它原生支持动作输出:关节角度、夹爪位置、轨迹点。换句话说,Cosmos 3 不只是「看视频生成视频」,它能直接吐出「机械臂怎么动」的数值流。NVIDIA GEAR 团队正在用它训练机器人的 video action model;Agile Robots 用它做 Thor 3 与 FR3 的任务级动作生成;Linker Vision 用它的视觉语言推理能力去分析城市级摄像头流。
落地节奏上,Cosmos 3 拆成三档:Cosmos 3 Super(需要最高物理精度与生成质量的后训练)、Cosmos 3 Nano(边缘端,几分之一秒级响应)、Cosmos 3 Edge(实时推理,coming soon)。Super 与 Nano 已开放下载,开发者可在 build.nvidia.com 试用,模型权重通过 Hugging Face 提供,用 NVIDIA NIM 微服务部署。许可证层面,Cosmos 已迁移到 Linux 基金会主导的 OpenMDW 1.1——一套面向物理 AI 模型的统一许可。
如果说 Cosmos 1 解决了「机器人能不能在仿真里看到合理的世界」,Cosmos 2 解决了「能不能根据看到的做出预测」,Cosmos 3 这一代直接跨过了从「理解」到「驱动机械动作」之间最薄的一层抽象。它把工厂里”看懂图纸再下刀”这件事,从人工经验变成模型调用。
NVIDIA 同步宣布的 Cosmos Coalition,把 Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AI 这六家放进同一个生态——意图很明确:让 Cosmos 3 成为「物理 AI 时代的 Android」。一座工厂的看门人,需要一整套围绕它长出来的工友网络。
三、生产线:Blackwell Ultra 把每 token 成本打到 1/35
一座 AI 工厂的”产线效率”用什么衡量?不是总算力,是单条产线每跑出 1 个 token 花了多少钱、占了多少电。keynote 前后一周,NVIDIA 官博披露了一组由 SemiAnalysis InferenceX 跑出来的实测数据:NVIDIA GB300 NVL72 在 agentic 低延迟场景下,每兆瓦吞吐达到 Hopper 平台的 50 倍,每百万 token 成本压到 1/35。
支撑这个数字的不只是硬件——Blackwell Ultra GPU 本身相对 Blackwell 在 NVFP4 算力上提升 1.5 倍、attention 速度提升 2 倍。更大的变量是软件栈:TensorRT-LLM 在最近四个月里给 GB200 推理性能带来 5x 提升;NVIDIA Dynamo、Mooncake、SGLang 三个团队的 MoE 推理优化还在持续叠加;NVLink Symmetric Memory 实现了 GPU 之间的直接内存访问;Programmatic Dependent Launch 把下一个 kernel 的准备阶段前置到上一个尚未结束时启动。
具体到长上下文——对一个 12.8 万 token 输入、8 千 token 输出的 AI 编程助手场景,GB300 NVL72 相对 GB200 NVL72 又能再砍 1.5x 的每 token 成本。CoreWeave、微软 Azure、Oracle OCI 已经把 GB300 投入生产,DeepSeek R1 在新平台上的推理性能相对前代提升超过 6 倍。
往前一步看,Vera Rubin NVL72 给出的目标更激进:相对 Blackwell,每兆瓦吞吐再翻 10 倍,每百万 token 成本再砍到 1/10;训练大模型需要的 GPU 数量,Rubin 只需要 Blackwell 的 1/4。
把这套数字翻译成工厂语言:Hopper 是上一代车间,Blackwell 是当前车间,Vera Rubin 是规划中的下一代车间——每换一代,单 token 的「电费 + 折旧」再砍一个数量级。OpenRouter 的《State of Inference》报告印证了这一拐点——与软件编程相关的 AI 查询占比,从去年的 11% 涨到接近 50%。编程助手恰恰是对延迟最敏感、token 消耗最大的工作负载。
换句话说,NVIDIA 不再把客户当「买 GPU 的人」,而是「买 token 的人」。这是 keynote 整体叙事的一次静悄悄转向——它把销售单位从”机器”换成了”产量”。
四、车间联网:与 Microsoft 的「端云一栈」协议
一座工厂的真正价值,取决于它能不能被联进更大的网络。6 月 2 日 Microsoft Build 开幕,Jensen 没能亲自到西雅图。他在台北小巨蛋的 keynote 舞台上与 Satya Nadella 视频连线,共同宣布一套「端云同栈」的合作协议——这座 AI 工厂第一次有了一条被正式接通的外部输送带。这场连线成为台北站最长的次级话题。
协议分五层,对应五种不同的工位。
第一层是 RTX Spark 与 DGX Station for Windows 两款 Windows 端 AI 设备,这是工人身边的”桌面工位”。RTX Spark 是一款面向 Windows PC 的 AI 算力模块,1 PFLOPS AI 性能、最高 128GB 统一内存、全天电池续航;DGX Station for Windows 是「桌边 AI 超算」,搭载 GB300 Grace Blackwell Ultra Desktop Superchip,FP4 算力 20 PFLOPS,coherent 内存 748GB,可本地运行 1 万亿参数模型。RTX Spark 由微软 Surface、ASUS、Dell、HP、Lenovo、MSI 推出笔电与小型桌面版,今年秋季上市;DGX Station for Windows 计划 Q4 由 ASUS、Dell、GIGABYTE、HP、MSI、Supermicro 出货。
第二层是 Azure Foundry,这是云端”大车间”。Anthropic Claude 模型在 Azure 上以原生方式跑在 GB300 上;Nemotron 3 Ultra、Nemotron 3.5 ASR、Nemotron 3.5 Content Safety 三档 NVIDIA 开源模型同月登陆 Foundry 托管算力;Cosmos 3 与 Earth-2 AI 天气模型也已在 Foundry 与 Planetary Computer Pro 开放。
第三层是数据层,连接的是”仓库”。NVIDIA 加速计算进到 Microsoft Fabric Data Warehouse,官方数据是 SQL 执行相对 CPU 基线快 6 倍、相对其他三家主流云数仓快最多 7 倍。这条新闻没有 RTX 那么亮眼,但对企业 IT 决策者影响深远——AI 算力与传统 BI 数仓第一次可以在同一个 Azure 资源池里被调度,仓库与产线接通了。
第四层是 Foundry Local on Azure Local,这是”主权云与厂区”层——把 NVIDIA RTX PRO 6000 Blackwell Server Edition 与 Nemotron 系列配到 Azure Local 多节点部署,覆盖主权云、制造、能源等低延迟场景。
第五层是 NVIDIA OpenShell,一个 Apache 2.0 协议下开源的「agent 安全运行时」,被 GitHub Copilot 集成。每一个 agent 跑在自己隔离的沙箱容器里,每次出站调用先过 policy 评估,policy 本身以代码形式入库、版本化、热更新。这是工厂里”门禁与巡检”那一层。
这场合作的真正信号是:NVIDIA 第一次把「Windows」与「Azure」接进同一套软件栈。过去 NVIDIA 的故事是「训练与推理跑在 GPU 上」,现在它的故事是「agent 从一台 Surface、一台 DGX Station、一台 Azure 节点、一台 Azure Local 节点上跑起来」,开发者不需要关心是哪一种硬件。一座工厂的”工位”和”大车间”用的是同一套图纸。
Vera Rubin 同步被 Microsoft 验证可用于 Azure。Fairwater Wisconsin AI 工厂比计划提前 live,几十万张 Grace Blackwell 板卡以单一 AI 工厂形式运行,与 Georgia 工厂互联组成分布式集群;Fairwater 与 OCI Abilene 都跑 NVIDIA Spectrum-X Ethernet 与新发布的 MRC 传输协议。MRC 是 NVIDIA、微软、OpenAI、AMD、Broadcom、Intel 共同贡献到 OCP 的开源规范。
五、上工:台湾制造业成了这座工厂的第一个大客户
工厂建好了、产线调好了、网络接通了,剩下的问题是”谁来上工”。台北站给出的答案,是台湾制造业自己。
NVIDIA 在会上发布 Factory Operations Blueprint(代号 FOX),一个面向工厂经理 agent 的参考设计,跑在 DGX Station 上。FOX 是这座 AI 工厂的”中央调度室”——它从图纸走向车间。
FOX 蓝图基于 NVIDIA NemoClaw agent 框架、AI-Q Blueprint 与 Nemotron 开源模型,把工厂里的传感器信号、质检系统、SOP 文档、运营告警统一接到一个「中央大脑 agent」,再由它调度一群专业 agent 去解决具体问题。
富士康用 FOX + NemoClaw 搭出 MoMClaw——一个制造运营多 agent 系统,连入传感器、机械信号、几百个专业 agent。富士康给出的预期收益是:根因分析时间缩短 80%、劳动生产率提升 15%、机器故障率下降 10%。和硕预计用 FOX 把资产冗余成本压 15%。研华在自家工厂部署了「AI Factory Brain」,预期能耗下降 10%。纬创则把 Cosmos + Nemotron + Metropolis VSS 组合起来做表面贴装产线的 agent。
机器人平台的进展同样在台北站集中释放,相当于给工厂”配齐了工人”。Isaac GR00T 1.7 模型在 Cosmos Reason 2 backbone 上用 2 万小时第一人称数据做预训练,支持更复杂双手操作;Isaac Teleop 正式 GA;Isaac Lab 3.0 集成 Newton 物理引擎、支持多 GPU 扩展;Isaac Sim 6.0 GA,新增 1000 多个可抓取资产;Isaac ROS 4.4 接入 ROS 2 与 Jetson Thor 类硬件。截至发稿,GR00T 模型下载 27.4 万次,GR00T X Embodiment Sim 数据集在 Hugging Face 累计下载 1000 万次。
边缘端,NVIDIA 公布 JetPack 7.2 与 NemoClaw on Jetson。JetPack 7.2 引入 Yocto 项目支持,CUDA 13 落到 Jetson Orin,Jetson AGX Orin 32GB 模块 AI 算力从原规格提升 20% 到 241 TOPS;Jetson Thor 引入 MIG 支持,让机器人感知这类需要确定性的工作负载可以独占 GPU 资源。Jetson Thor 是工厂里”现场工位”那一格——主厂房算力再多,也得有人站在机器边上。
Jensen 在 keynote 期间去 COMPUTEX 展台巡场,会见了宏碁 Jason Chen、华硕 Jonney Shih、联发科 Rick Tsai、Quanta 副董事长 C.C. Leung。这是一张熟悉的合影,但照片背后的产业结构已不同:台湾的角色从「替全球造硬件」悄然扩展到「替全球跑 agent」——它既是这座 AI 工厂的厂区,也是它的第一个客户。
我们的判断
第一,台北这站 GTC 的真正产物不是一场发布会,是 Vera Rubin 这座「主厂房」正式开张。Cosmos 3、GB300、Isaac GR00T 1.7 都是车间里的设备,Vera Rubin 才是承载这些设备的厂房本身。当 Rubin 真正进入工厂、进入数据中心、进入 Microsoft Azure 的生产网络,意味着 NVIDIA 的产品周期第一次从「年度发布」拉长到「持续在产」——它不再是一份产品路线图,而是一座全年无休运转的厂房。
第二,NVIDIA 的身份正在从「硅卖方」转向「AI 工厂运营商」。AI Cloud 生态扩展到六大洲;与 Microsoft 签下端云一栈;Spectrum-X 与 MRC 进入 OCP 开源规范;OpenShell 进入 GitHub Copilot;OpenMDW 1.1 接收 Cosmos、Isaac GR00T、Isaac、Nemotron——每一项单看都是局部新闻,叠加起来是同一件事:NVIDIA 不再是别人采购清单上的一行,它正在长成别人的操作系统。卖芯片是一次性收入,运营工厂是持续收入——这是 Jensen 在台北这 80 分钟里真正想讲的那句话。
第三,对开发者与决策者,GTC 台北 2026 留了一个清晰问题:你的 agent 工作负载,准备好按 token 成本、确定性时延、长上下文能力这三项来选硬件了吗? Cosmos 3 给物理 agent 一只眼睛,GR00T 1.7 给它两只手,Blackwell Ultra 给它大脑,Vera Rubin 给它未来五年要用的电,Jetson Thor 把它送到车间现场。这一套栈已经完成,剩下的问题是你的应用什么时候上去。这正是工厂的”入场券”问题——工位已经摆好,工人得自己报名。
第四,台湾的角色需要被重新定价。GTC 台北站没有强调「台湾是脆弱的」,而是强调了「台湾是不可替代的」。这句话 Jensen 没有在 keynote 里明说,但 keynote 之外的一周里,他用 25 家工厂、500 多家生态伙伴、上百万件 MGX 组件,把这件事讲清楚了。当 Jensen 把台北讲成一座工厂,他同时讲清楚了另一件事:这座工厂的厂区,画在台湾。
对千榕观察而言,本次 GTC 台北 2026 的一个被低估的次级信号,是 NVIDIA 把开发者工具链(Isaac Lab 3.0、Newton 物理引擎、Metropolis VSS blueprint 3)一次性 GA 化。这一代 NVIDIA 真正想卖给开发者的,不只是「训练更快」与「推理更便宜」,而是「让你能把这些能力包成 agent,并交给别人去用」。这是 agent 时代操作系统最关键的一步,也是这座 AI 工厂向外输出”工位”的方式。
我们会在后续文章里拆解 Cosmos 3 的 mixture-of-transformers 架构细节、Foxconn MoMClaw 的实际部署形态、以及 Blackwell Ultra 在长上下文场景下的工程权衡。blog.dgqrs.cn 也会持续跟踪 Vera Rubin 量产节奏与 OpenShell 这类安全运行时的演进。
视频:英伟达 GTC 2026 台北 主题演讲 生成式AI正式进入智能体AI并延伸至物理AI
本文由 AI协助撰写,最终内容由本站编辑团队审核。