物理AI进场以后，谁来定义“干得对”？,al 物理

文 | 舒泽品牌手记

机器人把箱子送到工位，后台日志显示任务完成。

箱子偏了一个手掌的位置。工人转身，多伸了一次手，把它挪到顺手的地方。后面那道工序，多等了十几秒。

这十几秒不会出现在产品后台里，班组长的日报大概率也不会单独记这次调整。等客户抱怨节拍被打断、供应商坚持任务已经完成时，双方说的都是真的——因为从来没人坐下来定义过，这一单算不算“干对了”。

物理AI进了现场以后，“会不会做”很快会让位给另一个问题：做成什么样才算交付。这套标准能不能写进合同里的验收条款，决定了一个试点最后变成长期项目，还是变成下一页融资PPT。

79%在试，4%跑通了

Capgemini研究院2026年4月发布的报告调查了16个国家的1678位企业高管：79%的组织已经在接触physical AI，27%在部署或扩展方案，4%表示已经规模化运行。从79%到4%之间那段陡坡，就是这篇文章想讨论的东西。

图1　物理AI的采用漏斗。数据来源：Capgemini Research Institute，2026年4月

把锅甩给基础设施已经越来越难了。英伟达把Cosmos世界模型、Isaac仿真框架和GR00T模型串成一条完整路径，训练在变快，仿真在变便宜，机器人进场的门槛一年比一年低。门槛降下来之后，客户的问题反而更尖锐：进来可以，做到什么程度算数？

不到1%的损伤，3500万英镑的账单

数字世界里的AI出错，按一下重新生成就行。物理世界会记账，而且记得很细。

2021年7月16日，Ocado位于英国Erith的自动化仓库起火，起因是三个机器人在网格系统上相撞。火势控制得算快，受损面积不到整个网格的1%。但Ocado后来披露，这场火让它损失了约30万个订单、约3500万英镑营收，另有约1000万英镑的直接损失没有保险覆盖。这还是Ocado三年里的第三起仓库火灾——2019年，Andover那座仓库整个烧掉了。

1%的损伤面积，对上3500万英镑的账单。这个比例关系，值得每个正在谈物理AI项目的人抄在本子上。

火灾毕竟是极端事件，日常的代价藏在概率里。2024年，论文《Demonstrating Mobile Manipulation in the Wild》研究了一台在真实杂货店里工作的移动操作机器人，研究者做过一个推算：单步动作可靠性99%，每分钟执行10个动作，一小时连续任务的整体可靠性会掉到0.2%。这个数字是推出来的，没人真去跑满一小时测过，但它点中了连续性的残酷——单步看起来再稳，串成一小时的真实任务，每个瑕疵都在做乘法。

图2　单步99%可靠性串成一小时连续任务后的衰减。推算依据：Demonstrating Mobile Manipulation in the Wild，2024

论文还记下了一个实验室里感受不到的细节：真实门店里，机器人卡住、撞到货架、意外停下，都得有人走过去处理，没法像实验环境那样按个键重置。一次人工介入花不了几分钟，乘上一整天的运营，就是一个新开的人力成本科目。

Amazon的Vulcan把这件事摆上了台面。官方介绍写得很克制：它能处理履约中心里约75%的物品类型，剩下的，交给人类同事接手。比起那些剪辑过的演示视频，这句话更接近采购合同的语言。采购方真正想知道的就是边界：你能做哪一段，做不了时怎么停，谁接手，接手的这一单怎么计。

效率只有人工的20%

Figure 02在BMW斯巴达堡工厂跑了1250多个小时，装载9万多个钣金件，参与了3万多辆X3的生产。比这些数字更有信息量的，是Figure披露的考核方式：周期时间、放置成功率、人工干预次数。翻译成车间的语言就是节拍、精度、干预——三个词里没有一个跟“智能”沾边。

后来Figure 03发布，Figure 02从BMW返回总部。它进过现场、跑过班次、留下了数据，但公开资料里找不到它离一份长期采购合同还差几步。差在成本？维修体系？还是BMW压根没打算把这类任务写成可复用的验收条款？外人无从判断。一个跑了1250个小时的项目，最关键的信息照样可以一句不披露。

国内这边，《人民日报》2025年的报道留下了一组更直白的数字。2024年7月，优必选Walker S Lite进入吉利极氪5G智慧工厂，连续实训21天，任务是搬运物料。它动作慢，还得扫描料箱托盘上的二维码辅助定位，作业效率只有人工的20%。三个月后迭代的Walker S1把搬运速度提升了约25%，优必选随后陆续拿到了车厂超过500台的意向订单。

行业给这个阶段起的名字值得玩味：实训。车间里管实习生才叫实训。从实习生到正式工，中间隔着一张考核表——效率到人工的多少算合格，放偏几毫米算失败，一天人工接管几次以内可以接受。我的判断是：如果这张考核表继续缺位，这500台意向订单里的大多数走不到复购。意向订单买的是一个观察窗口，复购买的才是生产能力，两者之间隔着的，恰恰是那套还没人写出来的验收口径。

供应商说“测试顺利”，客户在数另一组数

公开材料通常把“完成动作”拍得很清楚：抓起了什么，走到哪里，放进哪个位置。往后的信息就稀薄了——连续跑了多久，哪几次需要人接手，异常怎么记录，客户最后按什么标准签收。

未必是供应商刻意藏着。仓库、工厂、医院、养老院里，“干得对”的含义各不相同，很多场景本来就没形成稳定口径；而那些已经在项目里磨出来的误差范围、接管阈值、SLA条款，又往往属于商业机密。于是行业呈现出一种错位：台前一直在演示动作，真正稀缺的运行记录和验收语言，都锁在抽屉里。

采购会议上，这种错位会变得很具体。供应商汇报测试顺利：跑了一天，没撞人，没停机，没抓错料。客户低头翻的是另一组记录：人接手过几次，异常有没有留日志，同类问题下次怎么办，责任归设备、算法、集成商，还是现场条件。这串问题指向同一个担忧：这套系统出了问题以后，能不能追溯，能不能修正，修完之后还能不能再次通过验收。

工业自动化行业用OEE、MTBF、MTTR、节拍时间、良率这套不性感的指标，筛了几十年设备。机器人想进产线，最终也要被装进同一套账里。对位置精度要求高的工位，零件放偏一点，机器还在运行，这一单已经废了。这笔账算不清，机器人就还停留在演示阶段。

磨出来的规则，比模型难抄

一家物理AI公司真把某类任务跑通，留给客户现场的除了机器人本体，还有几条双方默认的规则：放偏多少算失败，慢几秒会拖累节拍，什么异常必须停下来交给人，停机后多久要恢复，出了问题先调哪段记录。

换供应商，这些规则全得重验一遍。MassRobotics的AMR互操作标准处理了更基础的一层——不同厂商的移动机器人怎么共享位置、速度和健康状态，在同一片厂区里互不添乱——任务验收那一层，它够不着。某个工位上的失败定义、接管阈值、责任划分，只能在具体项目里一轮一轮磨。磨得越细，换掉这家供应商的成本就越高；只会做Demo的公司，以后很可能要按别人磨出来的口径去竞标。

这条逻辑也解释了试点的选址规律。最缺人的小厂反而做不了第一批客户：它的产线经不起试错，停一次线的损失就可能吃掉全部预算。大制造企业的真正优势是场景多、容错深，机器人这个月没跑稳，换条线接着调。同样道理，工厂、仓库、封闭园区会排在医院和养老院前面。工厂里的失败有地方记账，节拍、返工、停机、接管，每一项都能折成钱；送药机器人导航到护士站，系统显示“已到达”，可药有没有被正确接收，延误十分钟算谁的，病人家属中途把机器人拦下了该怎么办——“到达”两个字，一项都回答不了。这类场景连“失败”的定义都还没着落。

写到这里得承认两处我没想透的地方。一是验收口径要靠一轮轮试错磨出来，可试错的成本该谁出？供应商垫，等于用亏损换一套行业标准，换来的标准还可能被对手免费沿用；客户掏，等于替别人家的产品交学费。Figure和BMW、优必选和极氪是怎么分这笔账的，双方都没披露过。二是我把验收口径写成了规模化的关键卡点，但4%这个数字背后，机器人单价对人工成本的回收期算不过来、可靠性本身没到、产能爬不上去，每一个都可能是更大的拦路石——验收口径或许只是其中被低估的那一个，未必是最致命的那一个。这两点我都没有确定的答案，行业里似乎也还没有。

很多物理AI项目卡住的位置，就在试点和长期预算之间。订单要拆开看：有的买的是测试窗口，有的买的是示范效应，有的买的是战略合作里的一个座位。等到客户愿意基于同一套验收口径复购、扩场景，把人工接管和停机责任写进正式合同，这一步才算跨过去。

回到开头那个箱子。机器人下一次把它放偏一掌的时候，有的现场会像今天一样，由工人顺手挪正，十几秒的延误谁也不提；有的现场会翻出一份文件，上面写着偏差超过多少毫米记一次失败、当月失败超过几次重新议价。第二种现场，今天还很少。