文|博阳
编辑|郑可君
7月27日,上海WAIC人工智能大会上,智元机器人合伙人姚卯青在主题论坛后与腾讯科技等媒体进行了深度交流,针对智元后续技术路径选择与商业模式设计等诸多问题展开讨论。
这位清华大学电子工程系毕业、曾在Waymo、蔚来汽车等知名企业担任重要技术职位的资深专家,正带领智元机器人从技术突破走向产业化应用。
2025年被业界普遍认为是"具身智能的交卷年",智元预计在今年将实现数千台机器人的商业化交付,覆盖工业制造、科研教育、服务接待等多个场景。在这次深度对话中,姚卯青详细阐述了智元在世界模型技术上的独特理解,解释了为何坚持真实数据采集而非虚拟仿真,明确表达了不走安卓开放平台而选择苹果式软硬一体化的商业逻辑。
他认为,具身智能产业的广阔出口将容纳多家专业化公司,这与新能源汽车的高度同质化竞争趋势形成鲜明对比。
面对车企跨界、海外巨头竞争以及供应链挑战,姚卯青展现出既务实又前瞻的思考。他坦言,供应链仍是当前最大挑战,但对中国制造业优势和完整产业链抱有信心。在人才培养上,智元与清华大学合作开设全国首个具身机器人理论到实践课程,致力于解决产学脱钩的行业难题。
当被问及人工智能是否会取代人类时,姚卯青给出了一个技术专家的理性回答:机器人的使命是将人类从不适宜的工作环境中解放出来,在设计框架下安全运行。
以下是与姚卯青的对话实录(经编辑):
技术路线与架构
提问:请详细介绍一下,智元的世界模型和其他的世界模型有什么不一样?
姚卯青:世界模型本身从技术路线上来讲,有两条技术路线。
一类是泛VLA路线(不是端到端,而是可以实现VLA功能的模型),在VLM的基础上加一个解码器,直接生成动作。
世界模型最早并不是用来生成动作的,它是用来模拟世界的。
什么叫模拟世界?我们很多东西与物理世界需要有一套建模。但是物理需要做一个很复杂的建模,大家尝试去做,但是有限,于是想到用神经网络的方法暴力处理数据。
过去世界建模比较多,应该是2022年开始,那个时候特斯拉做的是汽车前视角下的场景:我要往前转,要直行,要闯红灯。
我们现在要告诉它去抓一瓶水,不仅仅是一个指令,而是50赫兹,每20毫秒给一个关节的角度,一系列的动作控制指令模仿出来,形成一个完整的呈现。
这就是我们所说的action condition world model,前面加了一个action condition动作驱动的概念。
还有一类就是world action model,它是一个共轭的关系,一个是给定动作去生成将来的画面,另一个是给定最终状态去生成动作,这就是world action model。
我让你去抓水,你不仅仅想象这个画面,同时把那七个关节角度,时时刻刻的关节控制角度全都生成出来。
提问:智元采用的是全栈式布局,本体、大脑、小脑都有投入,为什么选择这种全覆盖的路线?
姚卯青:刚才在我们的报告当中有提到,做到落地是一个闭环的飞轮,不得不把这些事情都做好,很难说把其中一块东西完整外包出去。
在实践过程中我觉得是循环往复的过程,某一个时间点做一些设计,在这之后收集相应的数据迭代,你会发现有很多新的需要提升的地方。然后再回头设计本体,所以在投入方面来讲我们团队各个方向都在努力。
提问:智元建很大的一个数据采集工厂,但是有些友商会依赖合成数据,虚拟数据。他们现在会按1比10,1比5进行虚拟数据和现实数据的混合训练,你怎么看待这两种数据采集方式?
姚卯青:今天我们的论坛有这样一个讨论,这是很有趣的话题,其实很多公司会从自身的出发点去倒推这个问题,希望以终为始给出1比10,1比99这样的答案。
实际上在过程中,我发现很符合今天重磅嘉宾最近发的一篇文章,叫插勺理论,他认为仿真很难涵盖所有物理世界我们想让机器人做的事情。
也许局部任务里面可以用仿真,但是大部分只能依赖真实世界,这也是我们在实验中发现的效果。同时在比较多可以仿真的团队,如果深入了解的话,最近他们也在采集海量的数据,同时也和地方政府建项目。
提问:你们发布了AgiBot World的数据集,智元的真机采集数据如何解决数据泛化?在这个过程当中,在真机数据采集上有哪些新的思路进展和方法?
姚卯青:首先数据有两方面,一方面是开放式的数据采集,家居、实验室等场景,其次我们现在也有真实应用场景的数据采集。很多客户愿意开放他们的场景,无论是作业现场,还是零售店里面采集的,我们通过很多专用的指令放到通用的合集。
同时在数据的增广等维度上,我们结合生成式还有仿真技术,对同样一段数据,改变它的环境、光照,甚至是操作物的纹理特征形态,做了很多这方面的工作,来增加多样性。
总的来说我觉得数据的事情肯定是一个持续的过程,它不会停止。
现在也有很多客户,我们看到它希望我们帮他们采集,比如说一个家电公司就希望我们帮他采集洗碗机,把碗放进去,洗衣机去洗衣服,我们已经收到越来越多这样的专业化需求,这些数据我们都可以和客户沉淀下来,成为我们最宝贵的数据资产。
提问:未来数据采集的时间成本或者资金成本会进一步下降吗?
姚卯青:未来是会的。
但首先我觉得现在数据采集成本并不是一个问题,一条数据几块钱,采很多数据也就几个亿。对于大模型公司来讲一天都不止花这么多。如果能够打通AGI这个成本可以接受。
其次降本是存在的。机器成本下降,自主决策化的数据,我们需要用人完成,而不是去采集所有比较容易的动作。
产业应用与落地
提问:从机器人进厂做一些实训,到真正能够进入车厂开始发挥作用,你觉得还需要多少时间?
姚卯青:我相对比较乐观,今年上半年已经签了柔性场景做落地,未来一年左右会看到很多这样的案例出现。
提问:现在人形机器人离真正能够代替员工还有距离,这个难点是什么?
姚卯青:其实对于很多产品来讲最大的挑战还是performance,包括成功率等,这是最大的挑战。
但我们目前在刚才提到的几个场景,我们已经连续做到1万次0失误,达到人的水平。
但是真正上线大家有更高预期,比如说不会影响产能,当然也可以通过其他运营手段,接管人机共建。
提问:相对于传统工业机器人,智元的优势可能在哪儿?
姚卯青:我们绝对不是去取代工业自动化。
他们作为一个专业机构极致地对它做了性能优化,我们解决工业自动化无法解决的问题。工业自动化是通过固定的流程解决固定的工作,但是没有解决变化的环境,比如说今天下午做的物流分拣,不能都分得整整齐齐,都是包裹,会变形,工人可能一大摞堆起来。
柔性的分配,产生工业自动化的痛点。可能就没有办法实现这种柔性的控制,现在必须实现精控,通过强化学习,慢慢地像人一样去做,这些是自动化无法实现的。
提问:在工厂机器人厂商是否会采取换电、无线充电的方式?
姚卯青:我们下一代产品都支持,不关机情况下直接热换电,另外也有自主回充,跟家里扫地机一样没有电就可以充。
提问:智元在7月初的时候中标中国移动7800万订单,它的具体功能主要有哪些?
姚卯青:这个项目是中国移动做的一个定制双足人形机器人,这个产品主要会应用在移动这样的运营商的门店、营业厅里面做一些接待讲解等交互的工作。
后续在运营商酒店、银行等会看到有一些服务接待的场景,其实都有海量的需求。
提问:可不可以理解为服务接待或者导览的场景是主要方向?接下来有没有其他的应用场景?
姚卯青:这只是我们其中的应用方式之一:通过智能创造无限能力,通过交互让机器人进工厂。
工厂只是第一步,下一步是零售服务业,最终若干年会进入家庭。
提问:智元在不同场景都有展示,相对来说初创的公司可能会展示自己比较专注的,或者是零售场景,这个选择是为什么?
姚卯青:大家是有差异化的,大家都是创业公司,本身这个比较难,专注于某一个场景是大家普遍的做法,有些是零售的,有些是工业的,有些是家居的,我觉得这些很正常。
包括智元来讲也没有做所有行业的场景,经历大量长期的筛选评估和客户的推介,过程中形成我们技术相匹配的场景,作业类场景主要就是制造加物流。
提问:在落地上智元参与到什么程度?
姚卯青:现在都是在早期,我们都是自己下手做端到端,做交付。无论硬件改良再到模型训练到最后工程化的落地,都是我们自己亲自参与。
之后一定会变成,把这一套开发的体系形成很好的封装,形成开发的框架,赋能下游生态的伙伴,让他们低门槛地完成一些场景,做低门槛的交付。这是我们期待达到的。
商业模式与市场策略
提问:智元会走向开放本体接口专注于模型授权这种模式吗?第二个问题是,怎么看待车企可能下场做机器人?
姚卯青:首先商业模式上来讲,我自己觉得我们不太会走安卓的模式。
安卓是谷歌,谷歌本身的商业模式就是一家互联网公司,主要是靠互联网流量广告搜索这些业务,安卓主要是靠搜索。
智元作为一家本体厂商更多提供软硬件一体化,集成优化给到我们的客户,更像苹果、特斯拉一样软硬件全栈优化。在手机上大家也有体验,安卓体验并没有iOS来得那么流畅,包括安全,包括弹窗广告,我希望我们的产品能够给用户带来极致体验。
车企的话,车企下场肯定也是一个必然的过程。它们在很多方面有自己的优势,比如说供应链、管理、制造等方面,以及智驾上的一些积累。
因为我本人来自智驾行业,车企可能不一定会有我们现在这么专注,对于只做这件事情的智元来讲,这就是我们唯一要做的事情,我们必须做好,不能不做好。
当然在更大的公司,车企也好,互联网也好,他们更多还是早期的布局,因为这不是他们所谓的主营业务。你做得再好,从报表来看,可能更多给你带来研发费用的亏损。
他们现在投入都比较有限,也不排除我们跑通了以后他们深踩油门。
在新能源我们也能看到,后来大家做成熟了,市场可以预计后,还有人才做跟进。
好的一点还是刚才那个观点,相比于新能源汽车等一些产业,具身智能产业它的出口会大很多。车企大家的产品是高度同质化的:4个轮子加沙发。机器人可以应用的行业很多,最终呈现在每一个行业、每一个细分市场都有比较专业的公司存在。
提问:很多投资人他们认为今年下半年到明年上半年是具身智能的窗口期,你觉得智元什么时候会给市场交出一份比较大的答卷?
姚卯青:下半年交卷,我觉得这个说法是对的。
现在出来的团队也很多了,大家其实做的一些PR也有一些类似。无论是进厂打工或者家居里面做一些demo很难说到底谁的能力比较强,最主要的方式是实战检验。
很多头部公司,像智元,达达到一个比较高的水平,大家会看你的营收以及效果。
下半年我们会密集进入到真正行业交卷的阶段。
提问:请您从智元角度讲一下硬件和软件的降本路线。
姚卯青:首先降本这个问题我们还是比较理性看待。
因为智元整个应用场景和市场方向我们还是以B端为主,B端从取代人的角度,有一个合理的ROI就可以,并不是越低越好。C端产品可能为了渗透,要做一个比较夸张的降本动作。
从我们的角度来看,工业场景的计算,我们现在继续往上走,很多的硬件可以开模,整个制造成本降到相对较低的水平。所以我们并不太担心,能够在成本方面让客户接受。
提问:最近智元推出机器狗产品。但宇树的数据显示,他们已经有60%到70%的市场占有率了,智元此时进入四足领域是什么考虑?
姚卯青:四足在灵犀产品线下面。
四足现在作为一个成本价格较低,稳定性也比较好,相对来讲比较成熟的产品,我们也在市场端收到很多需求的声音,可以做一些个人的陪伴,有一些在海外可以做巡逻,家里面看门等,还是一个非常好的应用场景。
为什么我们会切入?当然有些友商做得比较早,形成占比比较大的收入规模,除了我们刚才提到的智元在看的一些领域,它会来自一些特种行业,特种行业确实目前我们公司还没有涉足的领域。
至于内卷这个事情,我们不是为了去内卷。而是说通过更多机器人的产品,行业的应用,其实在过程中更好地理解市场对智能化的需求,也在过程中获取更多的数据,更多的反馈,帮助我们人形的发展做出一些指引。同时很多供应链也是复用的,一旦四足使用以后对关键的零部件进行降本和整个质量规范,和一致性的提升。
供应链与产业化
提问:最近具身智能从交付速度来看,能不能从智元的某一个产品举例谈谈现在产业链的进展,对于我们产品的交付速度以及这方面的改善?
姚卯青:我们今年进入到集中的商业交付阶段,今年会有几千台出货。
现在来看供应链确实是一个比较大的挑战,尤其上游的智能机构,关节,减速器等,达到大的产能,同时保证产品一致性,还是整体提升的过程。
现阶段我们接触的供应商,也在陪他们成长,总体来讲还是偏中小型的企业,过去在机电比较大的玩家还在跃跃欲试,我们最近的生态行业伙伴准备下场,给他们看到了更大的机会。
提问:在过去一年这方面比较大的突破,具体可能是在哪个环节?可以结合智元某一个产品举例。
姚卯青:我们的关节模组,尤其我们双足人形,在去年经历量产爬坡,到今年来说都基本做到稳定。
去年的状态,因为有些车企,像奇瑞大家知道有一个4S店的机器人,当时他们是以车企的标准给我们做验收。过程中确实很难受。
行业早期阶段,我们花很长时间才能达到这么高的标准,现在我们发现一旦迈过这个坎之后对我们来说也是巨大的蜕变。
提问:现在您认为人形机器人供应链,包括哪些传感器或者减速器,下一步发展比较大的瓶颈在哪里?
姚卯青:一个是传感器,一个是关节,还有计算芯片,最后就是电池,大概就是这么几类。
特斯拉引入国产供应链,总体来讲对行业来说也是一个推动。
提问:供应链会不会有什么问题?
姚卯青:芯片一直会成为比较敏感的话题。
现在我们一方面使用比较主流的英伟达的芯片。国产我们也看到大算力芯片的出现,也在适配一些主流的模型,还是比较安全的。
国际化与竞争格局
提问:想问一下关于具身智能,智元有没有出海计划?
姚卯青:是有的,我们现在在北美、在欧洲,在中东,在日韩,在东南亚其实都已经有一些布局,很多都是跟当地的合作伙伴合作,本地化来实现全球化这样一个战略方向。
我们的产品今年开始往海外进行交付了。
过去大家在很多行业里面也看到了,中国是一个竞争非常激烈的市场,在中国能够杀出来的产品往往在海外能够快速做突破,这也是我们确实比较看重的一块。
提问:在海外商业化落地跟国内有什么不同?
姚卯青:海外很多像欧洲北美的市场,他们比中国市场更保守一些。他们对于新事物,比如说交互类的一些场景,好像关注的相对更少一些。他们更多的会去看一些工业等领域的应用场景,是否具备落地的条件去做一些降本。
好多地方,海外用工成本比较高,而且人员管理难度很大,很难想象北美、宝马、通用等汽车工厂,很多人一周1/3时间不来上班,很难管,每个月一个产线培训好几百人,对产品的一致性稳定性是巨大的挑战。
相对来说中国的员工还是比较稳定,比较高素质一些。
提问:因为美国这边对机器人很感兴趣,中美未来在具身智能这一块,态度是怎么样?
姚卯青:中美都很重视人形机器人和具身智能。
很多机构分析,科技中美霸权的最后一役,谁如果打胜这一战就是进入新的生态。
美国会依靠在大模型上的积累,还有技术上的积累、人才上面,重点跟我们竞争。
但是这个行业确实有一些不一样的地方,是高度依赖硬件的,硬件质量一致性要求比较高。这可能也是美国目前遇到的挑战,没有完整的产业链快速批量生产高质量的机器人。
相对中国来讲它的制造业没有像我们这么发达,所以应用场景相对也少一些。
这些我觉得是中国的一些优势。
投资合作与生态建设
提问:智元目前既接受投资,本身也进行投资,想知道跟被投放的合作具体有什么实质性的进展?
姚卯青:我们投资比较多的往往是我们一些上游的供应链,比如说传感器、关节等。
很多我们引入的一些投资方,股东,其实是一些场景方,包括像汽车,3C电子等。
现在围绕着上下游都已经做了一些紧密的协同,上游的一些供应链企业,我们已经把他们的一些部件往我们的整机导入。下游的场景他们也给我们打开,共建一些POC项目,下半年有机会做一些交付。
提问:如果有新的企业想投入这个领域进行创业,目前的门槛在哪几个方面?
姚卯青:现在如果说想要出来创业的话,第一点需要具备跟现在已有玩家的差异化,要有绝门绝技。现在同质化是有一些的。
其次就是说,我建议能够找到自己定位的应用场景,再出来创业。否则可能会面临融资的挑战。
因为这个赛道已经跑两年多了,很多资本纷纷已经下场或者比较重的押注了几个玩家。
提问:通过上半年整个的观察,场景的这些应用今年可能有什么认知各方面的改变?
姚卯青:随着具身智能在公众的普及,很多应用方有一些认知跃迁。
去年我们接触客户他们认为是自动化的设备,直接插上插头就可以直接用,今天他们也发现,其实这是需要做双向奔赴的事情,它是一个数据驱动的过程,需要机器人在实际场景中训练,不断的迭代,其次还要配合做一些产线的改造,更好地让机器人接入进去。
同时客户从资金的角度愿意去投入,投入很多资金跟我们做POC的验证,而不是直接拿来主义。