第一波机器人“婴儿潮”已来。
吹拉弹唱、写诗作画、做饭跳舞、给鞋打胶、给汽车打钉、包装可乐、搬运重物......只有我们想不到的,没有机器人做不到的。
在2024年世界机器人大会上,处于无干扰环境的机器人,卖力的展示着自己的才艺,似乎向前来围观的人群诉说着,“你看,你们没白来吧,我们人形机器人已经进展到如此地步,你们人类可以做的事情,我们都可以做。”
169家参展企业,超过600款展出的产品,包括工业机械臂、商用机器人,还有现在风头正旺的人形机器人。
与之同时涌来的,是行业和资本对人形机器人的关注。数据显示,截至2024年6月30日,今年国内机器人行业融资69起,融资总额总计约在75亿元左右,其中融资额超亿元的共12起。
在蓝驰创投合伙人曹巍看来,“现在人形机器人行业是一个百花齐放的阶段,在这个阶段,大家会不断朝着自己认为的最好方向做探索。这时多一些创业公司,多一些选择空间,对整个生态是好的。”
对于机器人能“能动起来”的期望,如同十年前对于自动驾驶的期待。“当Google做的自动驾驶小车刚开始在路上跑时,大家都希望它能够达到L4或L5级别的自动化,这无疑是一个遥远的目标。而现在的人形机器人或具身智能,可能正处在类似自动驾驶早期的阶段。”峰瑞资本副总裁颜黔杭向钛媒体创投家表示。
才刚刚开始,理想主义与现实主义之间,横亘着软硬件交互、生产成本等多方面问题,这似乎是投资人的共识。
“现在行业整体还处在早期探索阶段。虽然大模型为具身智能泛化性优势的实现了夯实了基础,但要让机器人真正动起来、解决更多实际问题,需要软硬件层面很多个环节的突破。”在云启资本合伙人陈昱看来。
绿洲资本董事总经理Ivy Li同样表示:“由于涉及硬件和交互,软硬件结合的落地周期通常比纯软件更长,难度也更大。此外,任何硬件产品都面临成本问题,这对市场推广和应用也有重要影响。”
错过了具身智能,如同错过了新能源革命,可是尚处于早期的具身智能赛道到底应该如何投资?其中存在的挑战与落地之间,需要等待多久?细分赛道之中还有哪些创业机会?投资人更偏爱投资哪些具身智能团队?
钛媒体创投家对话了4位知名投资人,聊聊他们眼中的具身智能投资:
云启资本 合伙人 陈昱
云启资本已投具身智能相关项目:星尘智能、睿尔曼智能、擎朗智能、松应科技、C12.AI
蓝驰创投 合伙人 曹巍
蓝驰创投已投具身智能相关项目:智元机器人、银河通用机器人
绿洲资本 董事总经理 Ivy Li
绿洲资本已投具身智能相关项目:逐际动力、千寻智能、极壳、纵贯创新
峰瑞资本 副总裁 颜黔杭
峰瑞已投具身智能相关项目:逐际动力、因时机器人、源络科技、航凯微电子、肇观电子、covariant、动易科技
繁荣与泡沫
钛媒体:过去一年,几乎每周都会诞生一家新的人形机器人公司,如何看待这一波浪潮?我们看到的那些视频,更多只是炫技,还是离真的落地不远了?
陈昱:现在行业整体还处在早期探索阶段。虽然大模型为具身智能泛化性优势的实现夯实了基础,但要让机器人真正动起来、解决更多实际问题,需要软硬件层面很多个环节的突破。
基于技术和成本,短期内具身智能不会走进千家万户,大家现在更多在探索工厂自动化场景的应用。比如做柔性生产,让一个机器人去完成不同工位的操作。往这个方向做的好处是有客户陪机器人一起打磨产品和技术,对于具身智能企业来说也是一种造血方式,能够活下去,等技术发展到一定程度,成本急速下降后,推向更广阔的市场。
曹巍:现在人形机器人行业是一个百花齐放的阶段,在这个阶段,大家会不断朝着自己认为的最好方向做探索。这时多一些创业公司,多一些选择空间,对整个生态是好的。
但3年到5年后,人形机器人玩家数量一定会收缩,完成优胜劣汰。现在大量公司是靠资本输血养活自己,它们还没有真正的产品落地能力和商业化能力。随着时间的推移,资本市场的热潮一定会消散。那时,只有能做出好产品的公司,和能真正实现商业化落地的团队,才能够存活下来。
Ivy Li:视频主要展示了demo团队在软硬一体化方面的实力,但在实际落地时,需要重点考虑产品市场契合度(PMF),实现真正的落地仍需一定时间。由于涉及硬件和交互,软硬件结合的落地周期通常比纯软件更长,难度也更大。
此外,任何硬件产品都面临成本问题,这对市场推广和应用也有重要影响。
如果具身智能未来是一个与新能源汽车同等规模的产业,那么这个产业足够容纳各类的优秀的企业,现在只是刚刚开始而已。
颜黔杭:经过学界、工业界20多年科研上的探索,当下这波人形机器人浪潮主要有以下几个驱动要素,第一是大模型的爆发推动了机器人大脑侧的前沿探索,第二是中国过去10年工业、协作机器人的快速发展形成了完善的机器人供应链体系。第三是人形机器人在控制上引入了AI方法后加速了机器人运动能力的进化。所以,这一赛道吸引了AI与智能制造赛道投资人的共同关注,承接住了AI大模型赛道的热度的外溢。
从当前技术进展来看,目前整体行业还处于早期技术研发迭代阶段,距离理想的大规模的产品化与商业化还有很长的路。如果将人形机器人的主要功能拆解为操作和移动,那么,移动能力的落地早于操作,现在人形机器人已经初步展示出基于感知的泛化运动能力了。在不少工业、特种场景,这类足式移动的需求是刚需。当下,操作能力在跨任务场景的泛化上还面临挑战,未来进展有待观察。
钛媒体:大模型对于具身智能机器人的发展有哪些助力?您认为到底什么样的大模型跟什么样的机器人本体结合才会实现真正的具身智能?
陈昱:和上一波机器人相比,具身智能最大的区别在于AI技术带来的泛化性特性。比如,专一功能的机器人。一个机器人把一个动作学好之后,换100个场景都能用,或者在同一个环境下,可以快速学习并执行100个动作。这也被业内认为是物理世界通往AGI的路径。基于泛化性特征,这一代机器人也弱化了对场景的要求。
曹巍:具身智能机器人有LLM(Large Language Model)和VLM(Vision Language Model),上层有一个大脑,下层就是执行,大脑里面包含了LLM和VLM。我们可以简单理解为,机器人的大脑就是长在本体里的,但是它的大脑是非常发育不良的,可能是算力非常弱的。
简单粗暴去划分的话,所有和感知、逻辑、决策相关的都是大脑,所有和运动控制、即时的条件反射相关的都是小脑。从整个机器人来看,当前的短板更多的是在底层的控制系统,不管是运动的控制还是精细化操作的控制,都亟待改进。
在大模型的推动下,机器人在复杂任务的串联和执行上有了大幅度的提升。有了大模型的加持,同样的算法结合大模型后,成功率提升了 50%以上,有的甚至提高了 100%,逐渐接近商用水平。这种趋势让我们看到未来机器人的成长空间可以与数据结合,基于数据进行学习,数据越多表现越好,真正感受到了这种潜力。
我们以工业机器人为例,工业机器人经典的控制架构体系是基于编程的(Program-Based),这个技术体系本身就有一定的柔性和延展性的能力了;如果要跟大模型结合,只能以分层、多层的方式。当遇到一些具体问题的时候,向大模型的端口提调用需求。
工业场景强调的是高实时、高响应、高精度,当场景有高要求的时候,控制模型和大模型之间的调用和连接就非常重要。第一,为了提高调用的响应速度,网络环境一定要非常好;第二,如果不是部署在云端,而是部署在本地,非常强调成本,不太可能把非常昂贵的推理芯片部署到每一台工业机器人中,这会造成非常高的成本。所以我觉得响应速度、算力部署的架构以及对应的整套系统的成本,是工业机器人和大模型相结合面临的一些问题。
结合视觉推理、语言理解和任务编排等功能的基座大模型,与负责提升机器人操作敏捷性的神经网络系统,将成为未来通用机器人的关键架构范式。
Ivy Li:首先,大模型带给机器人更完善的自主学习和决策能力、感知与交互能力、运动控制能力,让机器人能够更好地理解和适应周围的环境,通过自主学习和决策的智能系统在面对复杂多变的环境时,能够更加灵活地做出反应,如行走、抓取、操作等。
另外一个层面,让机器人在泛化上有走向通用的可能性。具身智能的实现路径上还有很多需要解决的问题,比如大脑的决策模型和小脑的运控算法的泛化性问题,现在各家公司都有各自的思路。此外,在数据的来源上和数据的配方上,不同的团队也有不同的侧重点。
颜黔杭:对于机器人,大模型当下提供的价值非常明确,即在机器人的多模态感知能力与任务理解、决策的泛化上,大模型使机器人能够从单一任务场景拓展到更通用的复杂场景,赋予了机器人具备通用智能的“大脑”。在负责运动控制的“小脑”这一侧,高频率推理和快速响应的基本需求使得大模型直接应用于“小脑”还有挑战。这也是为什么业内有一种声音在质疑Google RTX那套用大模型端到端直接替代小脑的可行性。
未来随着多模态大模型的成熟以及最近李飞飞提出的世界模型的研发推进,预期上我们希望大模型能在“大脑”侧发挥更多的作用,例如通过推理出符合物理世界规律的物体轨迹规划,来实现更高泛化性能的任务执行能力。如何结合负责“大脑”的大模型,与小脑侧的运动控制模型去搭建好一个兼具泛化与高推理频率的具身智能系统架构,是具身智能下一步的重要挑战。
钛媒体:为什么具身智能都在“卷”人形?
陈昱:人形和具身智能是两个不同的概念。人形机器人更多强调的是形态、运动能力,具身智能强调的是应用AI学习的能力,也就是能不能快速掌握技能,完成通用场景的操作。
大家的梦想肯定是想做人的形态,理由也是非常充分的,毕竟现在环境都是围绕着人来打造的。但从技术和成本考量,是否要做双足,我觉得这不是必须的。因为从实用性角度,当前操作能力会更加重要。
Ivy Li:具身智能不一定局限于人形形式,最终,成功与否仍取决于具体的应用场景和需求,关键在于客户是否愿意为其买单。我们认为,人形之所以能成为具身最终的形态,是因为人形能够更好的利用人的数据来学习。
颜黔杭:人形机器人是具身智能替代人执行任务的最理想硬件载体,追求人形的形态主要有两个原因。一个是为了实现仿人自由度和功能的最简洁形态,另一个是考虑到机器人需要适应为人打造的物理环境,而人形是适应能力最好的形态。如果是采用轮式,机器人的移动就被约束在平面上,无法适应一些复杂地形。
但对具身智能来说,人形不是唯一的载体,它可以应用到协作臂,复合机器人,甚至工业设备上,它并不用与人形强绑定。
挑战与突破
钛媒体:如果要实现通用智能机器人,硬件本体现在的成熟度如何,已经能够支撑具身智能的发展了吗?
曹巍:过去 2 - 3 年,机器人人形初步硬件架构已经确立,但关键模块和技术路径仍在不断迭代和探索。
中国的智能制造生态已经具备了非常完整的机器人产业链,包括感知系统、关节驱动系统、整体躯干以及灵巧手的手部关节等,国内都有非常优秀的供应商,既有上市公司也有初创公司。
比如,现在机器人的感知方案五花八门,上海 WAIC 上展示的十八罗汉,每个机器人的感知方案都不同,目前还没有统一的行业标准。这给投资人带来了很强的信心和良好的生态效应。
我们认为,未来的机器人团队不应单兵作战,而要做到生态协同、生态供应。从人形机器人架构成立到未来硬件架构稳定、行业达成共识,我们认为还需要 3 - 5 年的周期。如果硬件未来能够快速达成共识,对整个产业的发展和人形机器人生态的迭代将非常有帮助。
Ivy Li:硬件并非当前具身智能的核心瓶颈。虽然硬件技术路径尚未完全收敛,上游产业链也还不够成熟,但这只是时间和过程的问题。
硬件的关键不在于技术突破,而在于工程化实现。这本质上回归到制造业的三大核心:成本、质量和交期。我们对中国供应链充满信心,随着产业发展和硬件技术路径的逐步收敛,行业共识将形成,成本也将持续下降。
颜黔杭:谈到硬件,我们可以把它分成上半身和下半身去看。
上半身更多是负责操作的臂与灵巧手。这么些年下来,臂的技术相对已经比较完善与成熟,因为它在工业场景里已经落地验证了很多年。灵巧手的进展相对缓慢一些,当前很多场景的任务操作,用吸盘或者夹爪即可。目前,高自由度的灵巧手还处于科研或者说研发阶段,在应用落地之前需要解决可靠性,承载负荷,集成度等诸多问题。
机器人上肢操作能力的泛化与迭代离不开力反馈控制与触觉反馈控制的结合。力传感器与触觉传感器是这些新控制反馈链路的硬件基础。目前,市场上比较缺乏高性价比、功能可靠的这类传感器产品,但这也意味着投资机会。
至于下半身,即机器人的腿部和足部,包括电机、减速器等执行器件本身,目前并不是构成硬壁垒的稀缺前沿技术。对于人形或通用智能机器人来说,随着新需求的诞生和中国供应链的快速迭代,硬件的基础能力已经可以去支持一些具身智能的落地与验证。不过,基于人形机器人的新场景和特点,硬件上也需要依托供应链来做一些创新。
例如,机器人的抗冲击能力是一个需要去关注的问题。传统的协作机器人或工业机器人通常在固定场景下工作,侧重于保障运动的平顺性。但是人形机器人不管在操作和移动中都有大量的随机事件发生,比如操作任务的干扰和移动时环境中的暗坑,解决这类随机事件对机器人运动带来的瞬态冲击是人形机器人在硬件需求上变化比较显著的一点。
钛媒体:如果不考虑触觉或感官问题,只关注于如何控制灵巧手,哪些因素最难达成妥协?
曹巍:如果从感知和认知的角度看,因为感知和认知包含一些复杂任务的规划,它是由大脑来做的,而且大脑很多都是大模型在做,大家会基于开源的大模型或现有大模型去改,而这些大模型的能力现在其实是非常强,应该讲现在的机器人是“大脑强、小脑弱”,所以现在关键问题还是在小脑。目前在小脑领域,我们没有看到特别大的技术变化去驱动它,没有看到代际级的运动能力表现。
小脑领域,有一个模型叫做Vision Action Model,这个Action其实就是和小脑对应的。比如像local motion,它是小脑里跟运动能力相关的部分,这个人是个傻子,他没有大脑,但是他依然能走路,或者有一些条件反射,你一敲膝盖腿会动,这可能是你下意识的举动,也是属于小脑端侧、非常末端的基础模型去控制的。
“小脑”的话就是在控制侧,比如我们关注的像强化学习方向,我们有一个项目可能会去投资,他们是在强化学习方面做得非常优秀的一个团队,在双手的灵巧操作方面会有非常差异化的能力展现。
像灵巧手的选型,有众多创业团队在从事这方面的创业,但高自由度与稳定性、鲁棒性之间的矛盾,无论是学术界研究人员还是产业界创业企业家,都还在努力解决。
Ivy Li:现在还处于行业的早期阶段,各家公司在技术方案上都在进行不同的探索,关于需要多少自由度等问题尚未形成共识。这是一个产业发展过程中必经的阶段,随着时间的推移,行业将逐渐明确方向并达成共识
颜黔杭:峰瑞比较早在灵巧手赛道做了投资布局,今年也还在持续看新项目。灵巧手之所以能独立于其他机器人零部件作为一个单独的技术方向,是因为它必须要解决在人手大小的空间内,完成上驱动单元、传动结构,以及多类型传感器的集成,同时又要满足末端精度、末端负载、自由度,可靠性等多维度的需求。这需要从底层设计上去重构很多传统的机器人设计。这是硬件侧的难点,当然也是机遇。
至于如何如控制一个高自由度的灵巧手,这是一个复杂的问题。单个灵巧手的自由度远超之前的协作臂,同时要考虑引入多模态的闭环控制反馈(视觉、力觉,触觉),用经典控制方法很难实现高频率灵巧手的控制。学术界与行业内都在采用AI这类数据驱动的方式,通过模仿学习,sim2real的强化学习等方法,去推进灵巧手技术控制的迭代。
灵巧手的硬件与软件之间存在一个相互促进的飞轮效应。我们认为目前灵巧手的一个典型的矛盾点是,因为兼具高自由度、高性价比、高可靠性的硬件产品还比较缺乏,研发者们要研发控制算法与采集数据就很难。在研发上,一旦灵巧手的渗透率大幅度提升,就能推动这个飞轮快速转起来。
钛媒体:如果说需要考虑落地的话,潜在挑战在哪?
曹巍:从机器人运动控制方向来看,目前机器人的双腿控制部分已经能够做得很好,但如何把灵巧手用好,依然是学术界和产业界所面临的难点。人在做任务时,60%-70%的价值创造是由双手完成的,灵巧手的开发是机器人含金量非常高的技术栈,也是蓝驰创投现阶段看好的新细分方向之一。
颜黔杭:人形机器人公司要实现技术落地,一个路径是在研发上瞄准前沿和未来,然后在过程中逐步把关键技术拆解出来,再降维去做产品,实现商业化。这是一种由高到低的技术转化过程。
但现状是,不管是行走还是操作,目前的技术进展距离实际应用需求还有差距。
中短期,这一波创业公司如果能在某些垂直场景中找到可以产品化的方向,并解决场景内的通用性问题,就能实现一定程度的商业化。例如侧重于足式移动的人形机器人公司去做一些特种复杂路面场景的落地尝试,或者偏操作的具身智能公司在物流分拣和药房等零售类场景进行上下货。
挑战在于,市场对产品的要求通常会非常高,即便证明了技术可行性,也需要在商业价值上体现竞争力。
总体而言,相比于传统机器人,这一波人形机器人的优势还是在通用和泛化上,尤其是在感知与任务决策上已经展示出明显优势,但在基于模仿学习的任务操作上泛化仍然是挑战。
所以,比较适合短期落地的是感知复杂度高、操作复杂度低的场景,例如前面提到的药房上下货。
机会与希望
钛媒体:机器人方向进行创业,您认为哪些细分领域的机会更大?
陈昱:从投资角度来看,具身智能是一个非常复杂的行业,涉及软件、硬件多个层级,包括零组件、本体、数据采集、模拟器等等,这些细分领域都包含很多创业机会。
此外,具身智能的技术路线尚未收敛,有端到端机器学习方案、大模型加强化学习的方案,还有其他方案。在技术早期我们也会多布局不同技术路线的公司,未来技术路线可能也未必收敛,可能每种技术路线都有存在价值,都有可能做出高性价比、高功能的具身智能。不同的技术路线下也有创新突破的机会。
曹巍:围绕小脑领域,我们比较关注的是灵巧操作,在灵巧操作的算法上有创新的团队,同时也关注垂直领域的机器人公司,我们投资了一家深圳的公司叫小楠科技,它是做海外末端物流分拣的智能化设备的,非常有特色和差异化。
未来还会在仿真训练平台、关键传感器、机器人核心模组等方面持续寻找优秀创业团队。
Ivy Li:在我们看来,具身智能是未来人工智能引发社会性革命的核心载体,因此围绕具身智能将会有许多机会涌现。
在当前阶段,无论是围绕本体展开的移动平台,还是上半身的手眼结合技术,我们都给予高度关注。技术正在不断进步,这需要对机械系统的深入理解以及多模态模型的调试。
展望未来,手眼一体化本质上是多模态技术与机械的融合,随着产业链的日益成熟,具身智能的上游技术,包括传感器,将成为我们关注的重点方向。
颜黔杭:在具身智能赛道,我们峰瑞已经投资了AI+本体、包括灵巧手在内的核心零部件、关键传感器、垂直场景应用等多个细分方向。
我们相信具身智能是个长远的大赛道。大家对具身智能的共识目标是,基于高质量的数据采集与供应,结合AI模型侧的创新,来实现泛化与可靠性更强的具身智能系统。因此,我们希望能够保持对具身智能赛道的敏感,并持续探索新的具身投资机会。
此外,随着这波浪潮的兴起,我们也看好具身智能相关的技术与能力外溢到其他行业,比如传统工业、协作类机器人场景,去推动垂直场景内的机器人智能化。例如焊接、打磨等经典工业机器人场景里的任务,固定编程的传统机器人可以升级成为智能化的新型机器人。
钛媒体:具身智能赛道,您会着重看哪些方向的公司以及在选择团队时, 您会重视哪些能力?
曹巍:技术进步是推动机器人能力的关键抓手,蓝驰在看机器人方向的时候非常关注底层技术变化趋势。
机器人公司本质上来说是制造业公司,所以公司壁垒的构建首先体现在制造层面,是否有足够的规模、高效的生产能力、高效的供应链协同能力。
第二从机器人层面看,是否在数据侧、场景侧、算法侧形成足够的差异化。如果创业者有差异化的竞争力,单项能力突出就很好。但这样的团队一定要去快速补短,因为未来的竞争,一定是“六边形战士”之间的竞争。如果创业者对机器人有梦想,而不只是追热点,并且有差异化竞争力,他们随时都可以入场。
总体来说投机器人,一看技术变化,二看产业趋势。除了机器人,在整个的大科技领域,我们还关注AI和智能硬件的结合,同时也关注文生3D、图生3D等基础的底层模型和世界模型。
Ivy Li:我们仍在关注有差异化竞争力的团队。我们相信,不论是长板足够清晰的企业,抑或是在产业中经验丰富的企业,只要在产业发展的过程中清晰自己的定位就存在机会。
颜黔杭:对于具身智能和人形机器人这类短期还未到达商业化拐点的前沿科技赛道,我们的投资判断逻辑还是从技术趋势和团队能力这两个角度来综合判断。
首先,我们希望团队具备足够前沿的技术战略视野与决策能力,能够领先于行业平均水平去推动前沿技术的发展,而不是总跟在后面“抄作业”。其次,团队需要在这类新赛道里具备非常强的快速学习能力,去应对行业发展过程中的预期外的新变化。
钛媒体:未来 10 到 20 年,全球人形机器人或智能机器人行业的格局将会变成什么样?
陈昱:具身智能最终应该是替代或辅助人去完成一些工作,所以商业模式肯定是对标人的。如果在一些应用场景下,机器人能够做到比相应的人工成本更便宜,那市场肯定会买单。
更终局的视角下,大家最后都需要一个全能的个人助理,但这个商业模式还需要很长一段时间。
具身智能的发展模式和自动驾驶会有些类似,大概在2014年-2016年,我们已经能够看到自动驾驶的雏形在路上跑了。具身智能也在走同样的路,大家先把雏形做出来,再花5-10年把链条上各个环节的成本降下来。
曹巍:根据我们的观察,人形机器人和半人形机器人,都需要穿越2个到3个投资周期才能成功。
在机器人落地的过程中,未来的发展趋势一定是循序渐进,从简单到困难逐步展开。因为机器人什么时候能落地取决于机器人的能力边界和、场景和任务特点。
比如在 B 端场景,B 端最关注明确的成本要求,即要讲清楚 ROI,明确替代几个人、何时回本,是在场景侧百分百完成简单任务还是 80%完成复杂任务但只是秀一下?他们需要百分百稳定的简单任务。所以,B端场景里,能够克服外部干扰,从简单任务做起,做到高鲁棒性,是切入点的关键。
而在 C 端,我们看到大量标准化任务已被成熟的消费电子产品取代,留给机器人创业公司的基本都是复杂任务,如非标的房间打理、带孩子、照顾老人、非标的清洁等。这些任务非常复杂,既有空间交互的大量智能体与之博弈,又有复杂长序列任务的串联,还可能涉及机器人与其他智能体的协作,所以 C 端并不容易。我们也看到很多优秀的团队已经开始尝试在 C 端努力,期待有团队一起交流和碰撞,找到 C 端的解题路径。
总的来说,机器人的落地不是一蹴而就的,而是一个循序渐进的过程。
最后,虽然我们谈到了产业的发展趋势、遇到的问题和挑战,但我们也看到了大家对通用机器人、人形机器人、半人形机器人的巨大期望,这源于它们在场景适应上的包容性,无论是科研、交互服务、搬运巡检、复杂分拣、产业组装柔性任务,还是生活服务场景中的住宿、零售、批发,甚至 C 端的居家、养老、看护、陪伴等,未来都将是一个万亿级的市场,是一个值得大家倾心投入、共同努力的巨大机会。虽然短期内可能还看不到。(本文首发于钛媒体APP,作者|郭虹妘,编辑|陶天宇)
根据《网络安全法》实名制要求,请绑定手机号后发表评论