手机数量×汽车价格=机器人产业规模？,工业机器人汽车行业

时间： 2026-03-05 05:30作者：江中小白

“我觉得未来机器人真正走进家庭的时候，整个人形机器人的产业规模一定非常巨大，我们认为它是一个手机数量乘以汽车价格的产业空间。前景非常广阔，但挑战也非常大。”

在日前举办的人形机器人与具身智能标准化（HEIS）年会上，智元机器人联合创始人、总裁兼CTO彭志辉表示。

彭志辉在发表演讲

这一观点代表着彭志辉对于家庭市场的宏观预判，而2026年2月下旬，北京大学董豪课题组与智元机器人旗下上纬启元团队联合发布的两项研究成果，在机器人学术与产业界引起了关注。

值得注意的是，董豪的另一重身份是上纬启元首席科学家——而智元机器人已在2025年完成对上纬新材的收购，智元联合创始人彭志辉任上纬新材董事长，上纬启元正是上纬新材旗下专注个人机器人业务的子品牌。

董豪相关信息介绍 Github

这两篇发表于顶级会议ICRA 2026的论文，聚焦于两个极其具体且关键的难题：如何让机器人在复杂环境中不迷路，以及如何让它在家庭里完成精细的物件摆放任务。

它们共同指向了智元在具身智能领域一个清晰而务实的技术路径：优先攻克“大脑”的感知、推理与决策能力，为机器人最终走进千家万户打下地基。

让机器人看懂世界，干好家务

第一篇论文，构建了业内首个空间智能导航评测基准NavSpace。

“去一楼厨房找水槽”“在客厅左侧第三扇门后停下”“绕八人餐桌走一圈再回来”……这些人类习以为常的空间指令，对机器人而言却是“天书”。

现有导航模型要么能理解语言但不懂空间关系，要么能感知环境但无法将视觉信息转化为连续动作。

NavSpace设计了超过1200条涵盖方位、距离、地标、空间关系、环境状态、空间结构等六大类的动态指令，要求机器人不是简单地走到某个点，而是在移动中持续进行空间推理。

研究团队发现即使是市面上优秀的开源多模态大模型，其表现也接近随机猜测；专用模型虽好一些，但整体成功率仍然很低。

这揭示了当前机器人“大脑”在空间认知上的普遍短板。

为此，团队提出了SNav模型，该模型在所有类别指令上的表现均超越基线，并且在真实世界的办公室、校园等场景测试中，将机器人的导航成功率提升至32%，远高于其他模型。

这项工作的核心价值在于，它为机器人装上了一个能理解复杂空间关系的“大脑”，让机器人不再是只能沿着预设路线移动的机器，而是能够真正理解“周围有什么、我在哪里、该怎么走”的智能体。

其应用场景直接指向未来的家庭服务、商场导引、仓库巡检等需要自主移动与定位的领域。

如果说NavSpace解决了机器人“去哪”的问题，那么第二篇论文则致力于解决“怎么干”的难题，而且是家庭场景中最常见的精细操作问题。

这一研究瞄准的是“关系性物体重排”任务，例如将花插入花瓶、将盘子放入碗架、将笔插入笔筒。这些任务对人类而言轻而易举，但对机器人却异常困难：它不仅需要知道花该插进花瓶这样的语言逻辑，还必须了解花茎对准瓶口的角度和位置这一几何信息，稍有偏差就会失败。

传统方法要么缺乏对这种几何关系的显式推理，要么因生成目标时的噪声导致误差累积。

Imagine2Act框架提出了一个巧妙的思路：让机器人“先想象，再动手”。

具体而言，系统会首先生成一个与真实场景精确对齐的“想象目标”点云（例如，花在花瓶中的正确姿态），为机器人提供清晰的几何先验。

然后，通过一套“物体-动作一致性学习”机制，确保机器人的实际操作动作与这个“想象目标”紧密对齐，从而在利用先验知识的同时，避免了直接执行生成目标可能带来的误差。实验表明，该框架在插花、叠杯等7项仿真任务中平均成功率达到79%，在6项真实世界任务中达到68%，显著优于主流方法。

这项研究的实用性极为明确：它就是为未来的家庭服务机器人准备的“基本功”。当机器人需要整理书桌、收纳餐具、摆放物品时，Imagine2Act所提升的毫米级操作精度和几何理解能力，是它能否可靠、安全地融入日常生活环境的关键。

这两篇论文一“行”一“操”，共同勾勒出智元在机器人“大脑”研发上的聚焦点：深入具体场景，解决空间理解和精细操作的核心认知与执行瓶颈。

而这一切的最终出口，正是最具挑战性也最广阔的市场——家庭。