EAI（具身智能）行业专题报告：驱动通用人工智能与机器人产业的关键技术（附下载）_环境_物理

（精选报告来源：报告研究所）

1. 发展路线：EAI 构建新概念，相关政策推动技术发展

具身智能（Embodied AI）最初是由艾伦-图灵（Alan Turing）于 1950 年提出的 “具身图灵测试”（Embodied Turing Test），旨在确定智能体是否能够展现出解决虚拟环境中问题的能力，而且能够驾驭物理世界的复杂性和不可预测性。网络空间中的智能体通常被称为非实体人工智能，而物理空间中的智能体则是实体人工智能。多模态大模型（MLMs）的最新进展为具身模型注入了强大的感知、交互和规划能力，从而开发出能与虚拟和物理环境积极交互的通用具身智能体和机器人。因此，具身智能体被广泛认为是 MLMs 的最佳载体，目前最有代表性的具身模型是 RT-2 和 RT-H。

要让 AI 像人类一样理解这个物理世界，它必须能够以人类的方式解释和理解场景。比如，当 AI 被放臵在一个房间里时，它需要能够像人类那样分析和解读周围的环境。另外，在不同领域之间建立联系，或者试图发现新知识时，传统的预编程和特定领域的专业系统已经无法满足需求。这些系统受到现有内臵知识的限制，很难实现新的发现、创新和创造。让 AI 变得更聪明的关键在于利用“想象力”，其实就是人类和其他动物依靠世界的现有模式生成的想法，它是一个非常强大的规划工具。为了让 AI 有效地规划，它需要构建一个关于世界的模型（WMs），并能够利用这个模型进行推理和决策。因此，具身认知至关重要。系统需要通过具身认知来获取知识，并进一步生成抽象的认知。

相关政策已落地，带动具身智能行业发展。例如上海市的政策重点是推动智能机器人和智能制造业的发展，目标是通过营商环境的优化和创新基地的建设，到 2025 年实现行业标杆企业和应用场景的建立。北京市的政策则侧重于机器人产业的创新发展，特别是对高端机器人产品和国际化布局的支持，旨在推动产业生态系统的完善和技术创新。

美国在机器人工业应用和商业化方面的进展更为成熟，中国仍在探索阶段。美国和中国的机器人技术进展和落地进度存在一些显著差异。美国的机器人企业，如特斯拉和 Figure AI，已在 2024 年中旬进入工厂，负责分拣电池和简单抓取的任务。Agility Robotics 与亚马逊的合作已经在 2023 年展开，推进了物流和自动化领域的实际应用。Sanctuary AI 也计划在 2024 年开始商业运营，重点放在智慧城市和建筑领域的智能服务上。相比之下，中国的机器人企业虽然在多个领域（如安防、教育和娱乐）都有布局，但整体落地进度稍慢。例如，优必选的 Walker S 预计在 2024 年初开始量产，主要用于门锁质检和汽车制造领域。其他企业如小米机器人和波士顿动力的项目仍在研发阶段，逐步优化视觉和环境交互技术。

2. 技术背景：从模拟、感知、交互三方面训练

EAI 实现通用人工智能（AGI）的关键基础在于具身智能的发展。具身智能体与仅限虚拟对话的智能体（如 ChatGPT）不同，它们可以通过控制物理实体在现实和模拟环境中进行交互。该技术涵盖了多个领域，包括计算机视觉、自然语言处理和机器人技术，特别是在具身感知、具身交互以及从模拟到现实的机器人控制方面展现了显著优势。具身智能体依托于多模态大模型（MLMs）和世界模型（WMs），像“脑” 一样理解虚拟与物理环境，主动感知多模态元素，并根据人类的意图进行任务分解与执行。它们不仅能够与人类互动，还能够借助知识库和工具完成复杂任务，展现出比传统深度强化学习更高的灵活性和通用性。模拟器在训练具身智能中扮演了重要角色，通过提供逼真的虚拟环境进行算法开发和模型训练，帮助研究人员在降低成本、提高安全性和加速迭代的同时，将研究成果更快地转化为现实应用。同时，具身感知让智能体理解物理世界中的视觉推理和空间，技术包括视觉同步定位与绘图（vSLAM）和 3D 视觉定位，帮助智能体在动态环境中移动和互动。具身交互则强调智能体在物理或模拟空间中与环境和人类的互动能力，典型任务如具身问题解答（EQA），需要智能体主动探索环境，整合信息并执行目标导向的动作。

2.1 EAI 概念解析，虚拟与物理环境的结合

具身智能的发展是实现通用人工智能（AGI）的重要基础。与类似 ChatGPT 的对话智能体不同，具身智能可以通过控制物理实体并在模拟和物理环境中进行交互来实现。目前，具身智能涵盖了计算机视觉（CV）、自然语言处理（NLP）和机器人技术等多个关键技术领域，最具代表性的是具身感知、具身交互、具身智能体和模拟到现实的机器人控制。

基于多模态大模型（MLMs）和世界模型（WMs），具身智能体能够用“脑”来理解虚拟和物理环境，并主动感知多模态元素。主要的内容包括：1）具身世界模型（Embodied World Model）：这是具身智能体的核心，类似于智能体的大脑。它能够理解虚拟与物理环境，并进行多模态感知。2）多模态感知：智能体能够全面感知来自虚拟和物理环境的多模态元素，这意味着它可以处理不同来源的数据，如视觉、触觉等。3）人类意图理解与对齐：具身智能体能够充分理解人类通过语言表达的意图，并与人类的价值观对齐，确保其行为符合人类的期望。4）任务分解与执行：智能体具备将复杂任务分解为子任务的能力，并且能够精确执行这些任务。此外，它还能够与人类进行互动，并利用知识库和工具来完成任务。通过这些特性，具身智能体可以在复杂的动态环境中与人类自然互动，并可靠地完成任务，展现出比传统深度强化学习方法更高的灵活性和通用性。

2.2 具身模拟器（Embodied Simulator）

模拟器显著提升了 AI 训练的效率，并节省了大量成本。数据匮乏一直是具身人工智能研究面临的挑战，收集真实世界的机器人数据需要花费大量时间和成本。首先，现实世界中的机器人训练需要搭建专门的物理场所，导致训练进展缓慢，效率难以提升。另外，搭建专属场地、频繁的数据收集、聘请机器人专家操作等涉及的成本很高。此外，最重要的挑战在于可重复性，因为机器人的硬件配臵、控制方法和实施框架存在巨大差异，阻碍了数据的复用性。在这种情况下，模拟器为具身人工智能的数据收集和训练提供了一种全新的解决方案。具身模拟器对于 EAI 技术至关重要，因为它们能提供一个经济有效、可扩展且安全的实验平台。通过模拟潜在的危险场景，可以在不同环境中进行测试，支持更快的机器人原型设计，并向更广泛的研究群体开放。具身模拟器还能提供用于精确研究的受控环境，生成用于培训和评估的数据，并提供一个标准化准则。为了让具身智能体与环境互动，构建一个符合物理理论的模拟环境也十分重要，这就要求对环境的物理特性、物体的属性及其相互作用进行全面考量。

2.2.1 通用模拟器（General Simulator）

具身人工智能的最终目标是将虚拟环境中的研究成果转化为现实世界中的应用。研究人员可以选择最适合自己需要的模拟器来辅助研究。通用模拟器提供了一个近似物理世界的虚拟环境，可以进行算法开发和模型训练，在成本、时间和安全性方面都有显著优势。

Isaac Sim 是一个专为 NVIDIA Omniverse 平台开发的机器人仿真工具包，它提供了构建仿真机器人世界和进行实验所需的大部分功能。Isaac Sim 可以接受来自不同来源的输入，比如 Onshape、URDF、MJCF、USD，其中 USD 直接导入 Isaac Sim，其他类型的输入则会通过对应的 importer 插件进行导入。Onshape 是一种基于云的计算机辅助设计（CAD）软件，用于进行三维建模和设计工作。类似于 Fusion360。URDF（Unified Robot Deion Format）是一种 XML 文件格式，用于描述机器人模型的几何形状、连接性、关节、传感器和其他相关信息。在这个架构中，USD（Universal Scene Deion）用作场景描述，用于在不同工具之间进行内容创建和交换。目前 USD 正在广泛应用，不仅在视觉效果社区，还在建筑、设计、机器人技术、制造和其他领域中得到采用。

该工具包还提供了创建稳健、物理精确的仿真和合成数据集所需的工具和工作流程。Isaac Sim 支持常见的机器人框架，如 ROS/ROS2，允许用户通过这些框架进行导航和操作应用。此外，Isaac Sim 能够模拟来自多种传感器的数据，包括 RGB-D、激光雷达和 IMU，适用于各种计算机视觉技术，如域随机化、地面真值标注、分割和边界框的生成。

机器人仿真是利用计算机技术来模拟机器人运动、感知和互动的过程。这一过程涵盖了机器人硬件和软件系统的模拟，以便在虚拟环境中对机器人的算法和控制策略进行测试、开发和验证。其中的好处包括 1）成本控制：仿真环境能显著降低机器人开发与测试成本，避免了对昂贵硬件和设备的依赖。若不使用仿真，而采用大量真实机器人进行测试，将面临硬件组装、调试及损坏等高昂的时间与经济成本。尤其对于特殊测试场景，如沙漠或核电站，搭建逼真测试环境的成本同样极高。2）安全性保障：例如在工业机械臂、无人机等机器人设备调试中，无人机失控坠毁或机械臂故障会对企业的人员安全构成威胁。3）快速迭代：仿真环境避免了对真实机器人的繁琐调试，例如为一千台机器人重新烧录固件或修改搭载的算法，从而节省了大量的调试时间。并且模拟器允许开发人员快速迭代机器人的算法和控制器，以优化性能和功能。

2.2.2 基于真实世界的模拟器（Real-Scene Based Simulators）

在室内活动中实现通用具身智能一直是 AI 研究领域的重点。这些具身智能体需要深入理解人类的日常生活，并执行复杂的具身任务，如室内环境中的导航和交互。为了满足这些复杂任务的需求，模拟环境需要尽可能接近真实世界，这就对模拟器的复杂性和逼真度提出了很高的要求。因此，基于真实世界环境的模拟器应运而生。这些模拟器大多从现实世界收集数据，创建逼真的三维资产，并使用 UE5（虚幻 5）和 Unity 等三维游戏引擎构建场景。丰富而逼真的场景使基于真实世界环境的模拟器成为研究家居活动中的体现式人工智能的首选。

在腾讯网援引映维网的文章中指出，2021 年，麻省理工学院（MIT）、MIT-IBM 沃森人工智能实验室、哈佛大学和斯坦福大学的研究人员开发了一个名为 ThreeDWorld （TDW）的平台，并希望创造一个类似于《黑客帝国》的丰富虚拟世界。TDW 能够模拟室内和室外的高保真音频和视频环境，并允许用户像在现实生活中一样根据物理定律与对象进行交互。当发生相互作用时，系统能够计算并执行流体、柔体和刚体的对象方向、物理特征和速度，从而产生精确的碰撞和撞击声音。TDW 支持在三维环境中模拟移动智能体和对象之间的高保真感觉数据和物理交互。独特的特性包括：实时接近照片真实感的图像渲染；各种物质类型的真实物理交互作用，包括布、液体和可变形物体；具身智能体的可定制“智能体”；并支持人类与 VR 设备的交互。TDW 的 API 允许多个智能体在模拟中交互，并返回代表世界状态的传感器和物理数据范围。Yang Liu 等人介绍了 TDW 在计算机视觉、机器学习和认知科学等新兴研究方向上的初步实验，包括多模态物理场景理解、物理动力学预测、多智能体交互、 “像孩子一样学习”的模型，以及人类和神经网络的注意力研究。

利用 TDW 的多智能体 API 的灵活性，可以创建各种多智能体交互设臵的实现。其中包括一个“观察者”智能体被安臵在一个有多个无生命物体的房间里，与几个不同控制的“行动者”智能体一起（图 9a)。“行动者”智能体由硬编码或交互策略控制，实现对象操作、追逐和隐藏以及运动模仿等行为。在这种情况下，人类观察者只被要求看他们想看的任何东西，而虚拟观察者寻求最大限度地提高其预测同一显示中参与者行为的能力，根据“进展好奇心”的度量来分配其注意力，该度量寻求估计哪些观察最有可能增加观察者做出参与者预测的能力。

2.3 具身感知（Embodied Preception）

2.3.1 视觉同步定位和绘图 (vSLAM)

SLAM (Simultaneous Localization And Mapping，同步定位与地图构建)，主要为了解决移动机器人在未知环境运行时定位导航与地图构建的问题。SLAM 能够解决机器人在陌生环境中的定位、环境感知、移动方向等问题。机器人可以配臵多种传感器来实现 SLAM，包括激光雷达（3D，2D），毫米波雷达，超声波，RGB-D，摄像头（单目，多目）等，通常根据使用场景、制造成本、设备功率、算力的需求与约束，机器人采用不同传感器或组合的解决方案，以减少误差并提高准确性。目前两个主流的解决方案是基于激光雷达的 Lidar SLAM 以及基于摄像头的 Visual SLAM。VSLAM 即 Visual Simultaneous Localization and Mapping，主要是指如何用相机解决定位和建图问题。当用相机作为传感器时，通过一张张连续运动的图像(它们形成一段视频)，从中推断相机的运动，以及周围环境的情况。VSLAM 的技术框架主要由 5 部分组成，包括传感器数据预处理、前端、后端、回环检测、建图。前端，又称为视觉里程计（visual odometry，简称 VO），主要是研究如何根据相邻帧图像定量估算帧间相机的运动。通过把相邻帧的运动轨迹串起来，就构成相机载体（如机器人）的运动轨迹，解决定位的问题，然后根据估算的每个时刻相机的位臵，计算出各像素的空间点的位臵，就得到地图。

2.3.2 3D 视觉定位

3D 视觉定位的核心任务在于确定当前图像中相机的位臵和姿态。为实现这一目标，最直接的方法是构建三维空间点与二维图像点之间的对应关系，并基于这些匹配点对来估算相机的位姿。这一过程被专门定义为 PnP（Perspective-n-Point）问题。求解 PnP 问题的方法有很多，常见的有 P3P、EPnP、UPnP 等。视觉定位需要解决的一大关键问题是如何建立 3D 点与 2D 点之间的匹配关系。对于这一点，在论文《From Coarse to Fine: Robust Hierarchical Localization at Large Scale》中，作者 Sarlin 提出过一种分级定位的方案。

分级定位的框架大约可以分成三步：预检索、共视聚类、局部匹配与定位。预检索：预检索的意义在于获取前 k 张与当前图像最相似的图像，判断相似的依据通常是通过匹配图像的全局特征。一般而言，产生全局特征的方法可以依赖于局部特征所组成的词袋，不过近些年，一些深度学习方案也被引入了进来，例如 NetVLAD 或更加轻量级的 MobileNetVLAD。最终通过获取当前图像的全局特征的 k 个最近邻来获取预检索得到的相近图集。共视聚类：然而由于可能产生的错误匹配，所获取到的预检索图集并不一定全部都面向同一场景，这时就需要先将面向不同场景的图像区分开来，这项技术就被称作共视聚类，简而言之就是将具有共视关系的图像聚成一类。局部匹配与定位：一般认为图像数量较多的类所对应的场景是正确场景的可能性较大。因此从这一场景开始，尝试获取相机位姿。获取的方式主要依赖求解 PnP 问题，因此需要首先构建当前图像的 2D 关键点在 3D 模型中的坐标位臵。在尚不知道相机姿态前，这一信息的获取需要首先匹配当前图像和场景内的图像，特别要匹配那些能够对应到 3D 位臵的 2D 特征点，若能够匹配上则确定了当前图像中的 2D 点和 3D 点的对应关系，继而即可通过对 PnP 问题的求解获取相机位姿。

2.3.3 视觉语言导航（Visual Language Navigation）

视觉语言导航（Vision Language Navigation VLN）是一种技术，它结合了计算机视觉、自然语言处理和自主学习三大核心技术，使智能体能够跟随自然语言指令进行导航。这种技术不仅理解指令，还能理解指令与视角中可以看见的图像信息，然后在环境中对自身所处状态进行调整和修复，最终做出对应的动作，以达到目标位臵。例如，如果把一个机器人放臵在一间卧室里，并给它一个指令去取放在另一间卧室里的足球，由于两个房间之间无法直接看见，机器人需要走出房间，经过走廊、客厅等场所，通过理解并处理看到的每一处环境信息，判断下一步的行进方向，最终找到足球。NaVid 是首个专为视觉语言导航（VLN）任务设计的基于视频的视觉语言大模型。此模型模仿人类导航策略，仅将视频信息作为输入，无需地图、里程计或深度数据的支持。在视觉语言导航任务中，模型需要借助历史信息来判断自己已完成指令的进度。然而，历史帧中往往包含大量冗余和重复的信息。对于当前帧，模型不仅要提供该帧所在的最新场景信息，还需预测出符合指令的下一步合理动作。

目前该方法还有两个难点：1）导航数据的模态与大模型常见的数据模态不一致。机器人的导航数据需要建模历史信息和当前信息，并保证导航过程中动作输出的格式一致性。2）缺少大量高质量的视觉语言导航任务的真实数据。在真实世界收集这样的数据极其耗时耗力，且在场景和指令的多样性上有欠缺。这些困难限制了视频大模型用于导航任务的前景。

2.4 具身交互（Embodied Intereaction）

具身交互任务指的是智能体在物理或模拟空间中与人类和环境进行交互的场景。典型的具身交互任务是具身问题解答 Embodied Question Answering (EQA)。在这个任务里面，一个 agent 在三维虚拟空间中被进行询问，agent 为了回答这个问题，需要在环境中进行探索和信息整合。这个任务需要 agent 具有主动的认知、语言理解能力、目标驱动的探索、常识推理并将自然语言的信息整合到动作序列中。

2.5 具身智能全面落地仍需解决四大难题

1. 通用本体平台的挑战

解决硬件的关键零部件技术突破，形成具有优秀运动能力和操作能力的平台级通用机器人产品；平衡机器人本体的可靠性、成本和通用能力是难题。尤其在被认为是具身智能终极形态的人形机器人领域，相关研发依然是热点和核心挑战。

2. 智能体系统设计的难点

智能体作为具身智能的核心，必须具备复杂环境感知和认知能力。这包括 3D 环境感知、任务编排与执行、多轮人机交互、long-term 记忆和任务迁移等多项挑战。此外，具身智能要求实时感知和决策能力，以适应复杂和变化的环境。这要求高速的数据采集、传输和处理，以及实时的决策反应，尤其是 LLM 所消耗的算力规模巨大，对于资源有限的机器人处理系统将形成巨大的数据量、AI 计算能力和低延迟的挑战。

3. 高质量数据需求

现实场景的复杂多变，使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型，进而让智能体自我进化。耦合的本体，需要实际部署到真实环境中，才能够采集数据，这也是和非具身智能的明显不同。但对于关键业务，要求成功率，则仍然需要高质量的垂域数据。同时，通过层次化的智能体设计，将不同任务限定到特定领域，则是一个解决泛化和成功率的有效尝试。

4. 虚拟与真实交互中的学习进化

通过虚拟与真实环境的互动，具身智能体能够持续学习和进化，以应对复杂环境。尽管形态变化无穷，但要在有限计算资源下快速学习合理的规划和决策能力，是具身智能进化中的重要课题。

3. 应用场景：具身智能产品多样，覆盖广阔市场返回搜狐，查看更多

责任编辑：

资产保值小助手

EAI（具身智能）行业专题报告：驱动通用人工智能与机器人产业的关键技术（附下载）