行业新闻
王兴兴定义具身智能“GPT时刻”:带机器人到陌生场景,语音指令完成80%以上任务当ChatGPT以其惊人的对话能力引爆全球AI浪潮时,一个更深层的问题随之浮现:人工智能如何从虚拟的“大脑”走向物理世界,成为我们真正的“手”与“脚”?近日,宇树科技创始人兼CEO王兴兴提出了一个极具前瞻性的判断:具身智能的“GPT时刻”,其标志并非实验室里的完美演示,而是能够将通用机器人带到任何一个完全陌生的场景,仅通过自然语言指令,即可完成该场景下80%以上的任务。这一论断,不仅为行业划定了清晰的里程碑,也揭示了下一代智能机器人的核心挑战与终极形态。
传统工业机器人或服务机器人,本质上是“专用工具”。它们被预先编程,在结构化的、已知的环境中执行重复性任务,例如汽车工厂的焊接、仓储物流的分拣。一旦环境发生微小变动或任务需求改变,就需要工程师重新调试,成本高昂且缺乏灵活性。
王兴兴所定义的“GPT时刻”,指向的是一种根本性的范式转变:通用性(Generality)。这要求机器人具备:
强大的环境感知与理解能力:能像人一样,快速扫描陌生环境,识别物体、空间关系及潜在风险。
高级的任务分解与规划能力:能将模糊的语音指令(如“把客厅收拾干净”)分解为一系列可执行的子步骤(识别杂物、抓取、分类、放置到合适位置)。
灵巧的物理交互与执行能力:拥有适应多种物体的抓取、操作和移动能力,应对物理世界的不确定性和复杂性。
持续的学习与适应能力:能在执行中从错误中学习,积累经验,不断提升在陌生场景中的任务完成率。
这四大能力的融合,正是当前具身智能研究的核心。例如,谷歌的RT-2模型将视觉-语言模型与机器人控制相结合,展示了从网络图像和文本数据中学习,并直接输出机器人动作的潜力,朝着“看一眼就会”的方向迈进。
王兴兴特别强调了“80%以上”这一量化指标,这绝非随意设定。在技术产品化路径上,这一数字具有战略意义。
首先,从经济可行性角度,80%的自动化完成率意味着机器人能够承担绝大部分常规、耗时的劳动,剩余20%的复杂、异常情况可由人类进行补充干预或处理。这种“人机协同”模式能显著提升整体效率,同时将人力解放到更具创造性和决策性的工作中,从而产生明确的经济价值,足以支撑机器人的大规模商业化部署。
其次,从技术可实现性角度,追求100%的全场景、全任务自动化在当前及可预见的未来都极其困难,且边际成本会急剧上升。80%是一个务实且具有挑战性的目标,它要求系统具备高度的鲁棒性和泛化能力,但又避免了陷入对“完美”的不切实际追求。这类似于自动驾驶的L4级别——在限定设计运行域(ODD)内实现高度自动化,是技术成熟并走向普及的关键节点。
最后,从用户体验角度,当用户对一个新到的机器人发出十条指令,它能成功执行八条以上时,用户会建立起基本的信任感和依赖感,认为它是一个“有用且可靠”的伙伴。这种正向反馈是产品得以推广和迭代的基础。
要达到王兴兴定义的“GPT时刻”,需要软件“大脑”与硬件“身体”的协同进化,缺一不可。
1. “大脑”的进化:多模态大模型成为核心控制器
以GPT-4V、Gemini等为代表的多模态大语言模型,正成为具身智能的“最强大脑”。它们不仅能理解复杂指令,还能结合视觉信息进行场景推理和任务规划。未来的方向是将这些强大的认知模型与机器人控制策略进行更紧密的端到端融合,形成“感知-思考-行动”的闭环。例如,通过海量的机器人操作视频和文本指令数据进行训练,让模型直接输出控制指令。
2. “经验”的积累:仿真与强化学习构建数字孪生
在物理世界中训练机器人成本高、速度慢、风险大。因此,高保真仿真环境变得至关重要。在仿真中,可以创建无数个“陌生场景”,让机器人通过强化学习或模仿学习,以成千上万倍的效率进行试错和训练,积累应对各种情况的“经验”。英伟达的Isaac Sim等平台正在推动这一领域的发展。
3. “身体”的突破:高性价比、高性能的机器人本体
再聪明的“大脑”也需要一个灵巧、可靠且可负担的“身体”来执行。这正是王兴兴所创立的宇树科技等机器人公司的核心战场。其发展方向包括:
仿生敏捷运动:如双足/四足机器人,以适应人类生活的复杂地形。
柔顺灵巧操作:研发具备触觉、力觉反馈的仿人手机械手,实现精细操作。
成本与可靠性:通过技术创新和规模化生产,将原本昂贵的传感器、执行器成本降至消费级可接受水平。
只有这三者形成合力,才能催生真正意义上的通用机器人产品。
一旦具身智能跨越“GPT时刻”的门槛,其应用场景将呈爆炸式增长,深刻改变社会。
在工业与物流领域,通用机器人可以快速部署到新的产线或仓库,适应不断变化的SKU和订单需求,实现真正的柔性制造与智慧物流。
在商业服务领域,机器人可以承担商场导购、酒店服务、餐厅传菜、医院物资配送等多种角色,一个机器人平台通过更换“技能包”即可适应不同岗位。
最具想象空间的无疑是家庭场景。一个能听懂指令、能收拾房间、能准备简单餐食、能照顾老人起居的家庭机器人,将成为继电脑、智能手机之后的下一代核心智能终端。据市场研究机构预测,全球个人和家庭服务机器人市场将在未来十年迎来高速增长。
当然,这一进程也伴随着挑战:技术安全性与伦理规范、数据隐私保护、劳动力结构转型以及相关的法律法规建设,都需要与技术进步同步推进。
王兴兴对具身智能“GPT时刻”的定义,为这个火热但方向尚显纷杂的领域提供了一个清晰、务实且激动人心的目标。它不再局限于单一技能的炫技,而是聚焦于泛化能力、实用价值与人机交互的自然度。这标志着机器人技术正从“自动化”迈向“自主化”,从“工具”演变为“伙伴”。虽然前路仍有诸多技术高山需要翻越,但方向已然明确。当机器人能够真正理解我们的世界,并用行动响应我们的语言时,一场比数字智能更深远的物理智能革命,将真正拉开序幕。