文 | 舒泽品牌手记

机器人把箱子送到工位,后台日志显示任务完成。

箱子偏了一个手掌的位置。工人转身,多伸了一次手,把它挪到顺手的地方。后面那道工序,多等了十几秒。

这十几秒不会出现在产品后台里,班组长的日报大概率也不会单独记这次调整。等客户抱怨节拍被打断、供应商坚持任务已经完成时,双方说的都是真的——因为从来没人坐下来定义过,这一单算不算“干对了”。

物理AI进了现场以后,“会不会做”很快会让位给另一个问题:做成什么样才算交付。这套标准能不能写进合同里的验收条款,决定了一个试点最后变成长期项目,还是变成下一页融资PPT。

79%在试,4%跑通了

Capgemini研究院2026年4月发布的报告调查了16个国家的1678位企业高管:79%的组织已经在接触physical AI,27%在部署或扩展方案,4%表示已经规模化运行。从79%到4%之间那段陡坡,就是这篇文章想讨论的东西。


图1 物理AI的采用漏斗。数据来源:Capgemini Research Institute,2026年4月

把锅甩给基础设施已经越来越难了。英伟达把Cosmos世界模型、Isaac仿真框架和GR00T模型串成一条完整路径,训练在变快,仿真在变便宜,机器人进场的门槛一年比一年低。门槛降下来之后,客户的问题反而更尖锐:进来可以,做到什么程度算数?

不到1%的损伤,3500万英镑的账单

数字世界里的AI出错,按一下重新生成就行。物理世界会记账,而且记得很细。

2021年7月16日,Ocado位于英国Erith的自动化仓库起火,起因是三个机器人在网格系统上相撞。火势控制得算快,受损面积不到整个网格的1%。但Ocado后来披露,这场火让它损失了约30万个订单、约3500万英镑营收,另有约1000万英镑的直接损失没有保险覆盖。这还是Ocado三年里的第三起仓库火灾——2019年,Andover那座仓库整个烧掉了。

1%的损伤面积,对上3500万英镑的账单。这个比例关系,值得每个正在谈物理AI项目的人抄在本子上。

火灾毕竟是极端事件,日常的代价藏在概率里。2024年,论文《Demonstrating Mobile Manipulation in the Wild》研究了一台在真实杂货店里工作的移动操作机器人,研究者做过一个推算:单步动作可靠性99%,每分钟执行10个动作,一小时连续任务的整体可靠性会掉到0.2%。这个数字是推出来的,没人真去跑满一小时测过,但它点中了连续性的残酷——单步看起来再稳,串成一小时的真实任务,每个瑕疵都在做乘法。


图2 单步99%可靠性串成一小时连续任务后的衰减。推算依据:Demonstrating Mobile Manipulation in the Wild,2024

论文还记下了一个实验室里感受不到的细节:真实门店里,机器人卡住、撞到货架、意外停下,都得有人走过去处理,没法像实验环境那样按个键重置。一次人工介入花不了几分钟,乘上一整天的运营,就是一个新开的人力成本科目。

Amazon的Vulcan把这件事摆上了台面。官方介绍写得很克制:它能处理履约中心里约75%的物品类型,剩下的,交给人类同事接手。比起那些剪辑过的演示视频,这句话更接近采购合同的语言。采购方真正想知道的就是边界:你能做哪一段,做不了时怎么停,谁接手,接手的这一单怎么计。

效率只有人工的20%

Figure 02在BMW斯巴达堡工厂跑了1250多个小时,装载9万多个钣金件,参与了3万多辆X3的生产。比这些数字更有信息量的,是Figure披露的考核方式:周期时间、放置成功率、人工干预次数。翻译成车间的语言就是节拍、精度、干预——三个词里没有一个跟“智能”沾边。

后来Figure 03发布,Figure 02从BMW返回总部。它进过现场、跑过班次、留下了数据,但公开资料里找不到它离一份长期采购合同还差几步。差在成本?维修体系?还是BMW压根没打算把这类任务写成可复用的验收条款?外人无从判断。一个跑了1250个小时的项目,最关键的信息照样可以一句不披露。

国内这边,《人民日报》2025年的报道留下了一组更直白的数字。2024年7月,优必选Walker S Lite进入吉利极氪5G智慧工厂,连续实训21天,任务是搬运物料。它动作慢,还得扫描料箱托盘上的二维码辅助定位,作业效率只有人工的20%。三个月后迭代的Walker S1把搬运速度提升了约25%,优必选随后陆续拿到了车厂超过500台的意向订单。

行业给这个阶段起的名字值得玩味:实训。车间里管实习生才叫实训。从实习生到正式工,中间隔着一张考核表——效率到人工的多少算合格,放偏几毫米算失败,一天人工接管几次以内可以接受。我的判断是:如果这张考核表继续缺位,这500台意向订单里的大多数走不到复购。意向订单买的是一个观察窗口,复购买的才是生产能力,两者之间隔着的,恰恰是那套还没人写出来的验收口径。

供应商说“测试顺利”,客户在数另一组数

公开材料通常把“完成动作”拍得很清楚:抓起了什么,走到哪里,放进哪个位置。往后的信息就稀薄了——连续跑了多久,哪几次需要人接手,异常怎么记录,客户最后按什么标准签收。

未必是供应商刻意藏着。仓库、工厂、医院、养老院里,“干得对”的含义各不相同,很多场景本来就没形成稳定口径;而那些已经在项目里磨出来的误差范围、接管阈值、SLA条款,又往往属于商业机密。于是行业呈现出一种错位:台前一直在演示动作,真正稀缺的运行记录和验收语言,都锁在抽屉里。

采购会议上,这种错位会变得很具体。供应商汇报测试顺利:跑了一天,没撞人,没停机,没抓错料。客户低头翻的是另一组记录:人接手过几次,异常有没有留日志,同类问题下次怎么办,责任归设备、算法、集成商,还是现场条件。这串问题指向同一个担忧:这套系统出了问题以后,能不能追溯,能不能修正,修完之后还能不能再次通过验收。

工业自动化行业用OEE、MTBF、MTTR、节拍时间、良率这套不性感的指标,筛了几十年设备。机器人想进产线,最终也要被装进同一套账里。对位置精度要求高的工位,零件放偏一点,机器还在运行,这一单已经废了。这笔账算不清,机器人就还停留在演示阶段。

磨出来的规则,比模型难抄

一家物理AI公司真把某类任务跑通,留给客户现场的除了机器人本体,还有几条双方默认的规则:放偏多少算失败,慢几秒会拖累节拍,什么异常必须停下来交给人,停机后多久要恢复,出了问题先调哪段记录。

换供应商,这些规则全得重验一遍。MassRobotics的AMR互操作标准处理了更基础的一层——不同厂商的移动机器人怎么共享位置、速度和健康状态,在同一片厂区里互不添乱——任务验收那一层,它够不着。某个工位上的失败定义、接管阈值、责任划分,只能在具体项目里一轮一轮磨。磨得越细,换掉这家供应商的成本就越高;只会做Demo的公司,以后很可能要按别人磨出来的口径去竞标。

这条逻辑也解释了试点的选址规律。最缺人的小厂反而做不了第一批客户:它的产线经不起试错,停一次线的损失就可能吃掉全部预算。大制造企业的真正优势是场景多、容错深,机器人这个月没跑稳,换条线接着调。同样道理,工厂、仓库、封闭园区会排在医院和养老院前面。工厂里的失败有地方记账,节拍、返工、停机、接管,每一项都能折成钱;送药机器人导航到护士站,系统显示“已到达”,可药有没有被正确接收,延误十分钟算谁的,病人家属中途把机器人拦下了该怎么办——“到达”两个字,一项都回答不了。这类场景连“失败”的定义都还没着落。

写到这里得承认两处我没想透的地方。一是验收口径要靠一轮轮试错磨出来,可试错的成本该谁出?供应商垫,等于用亏损换一套行业标准,换来的标准还可能被对手免费沿用;客户掏,等于替别人家的产品交学费。Figure和BMW、优必选和极氪是怎么分这笔账的,双方都没披露过。二是我把验收口径写成了规模化的关键卡点,但4%这个数字背后,机器人单价对人工成本的回收期算不过来、可靠性本身没到、产能爬不上去,每一个都可能是更大的拦路石——验收口径或许只是其中被低估的那一个,未必是最致命的那一个。这两点我都没有确定的答案,行业里似乎也还没有。

很多物理AI项目卡住的位置,就在试点和长期预算之间。订单要拆开看:有的买的是测试窗口,有的买的是示范效应,有的买的是战略合作里的一个座位。等到客户愿意基于同一套验收口径复购、扩场景,把人工接管和停机责任写进正式合同,这一步才算跨过去。

回到开头那个箱子。机器人下一次把它放偏一掌的时候,有的现场会像今天一样,由工人顺手挪正,十几秒的延误谁也不提;有的现场会翻出一份文件,上面写着偏差超过多少毫米记一次失败、当月失败超过几次重新议价。第二种现场,今天还很少。