端到端自动驾驶的核心：Foundation Models基石大模型_Driving_领域

传统分段式和规则（强监督、手工标注数据集）的自动驾驶技术路线面临瓶颈，提升非常困难，以nuScenes detection task的NDS得分为例，人类在一年内的提升仅有0.001。随着ChatGPT之类大模型的出现，自动驾驶立刻转向端到端的路线，虽然目前最顶级的端到端和传统算法仍有非常大的差距，但人类认为端到端路线有着很大的提升空间，自动驾驶领域几乎全部转向端到端，实际端到端对存储和算力要求很高，目前完全达不到实用阶段，但现阶段，如果你不说端到端，就等于说自己低端落后。

VLM自动驾驶架构

整个过程可以分解为感知、规划、场景决策和动作几个部分，每一部分都是一问一答。就好像ChatGPT那种问答。

图片来源：论文《DriveLM: Driving with Graph Visual Question Answering》

端到端的核心是Foundation Models基石大模型，这些大模型由大型科技公司花费巨资训练而成，任何一家车企都无法承受这样的成本，也不具备这种能力，也没有必要自己研发基石大模型，直接拿来用即可。基石大模型基于海量的网络非标注数据，具备良好的泛化能力，传统算法的适用面窄，泛化能力很差。基石大模型的另一个优势是对上下文（应该是上下时间段）的良好理解，传统自动驾驶算法很难做到。端到端的另一个好处是可以大幅度减少算法研发人员，裁撤95%的算法研发人员都能良好运转。

现代汽车和Aptiv的合资公司Motional，理想汽车，上海交通大学，亚马逊的几位研发人员联合完成了论文《A Survey for Foundation Models in Autonomous Driving》，对基石大模型在自动驾驶领域内的应用做了详细分析，本文主要观点都来自这篇论文。

图片来源：论文《A Survey for Foundation Models in Autonomous Driving》

对于基石大模型在自动驾驶中的应用主要有三种，一是用于路径规划，感知部分仍然采用传统算法；或者感知部分用端到端，路径规划依然用传统算法。二是用于仿真和生成Corner Case训练视频。三是全面端到端，统一感知和路径规划。

图片来源：网络

LLM大语言模型自动驾驶应用举例，Prompt是提示词或者说关键词，Context是上下文由交通规则和过往实例构成，最终输出决策规划。

图片来源：博世

需要将交通场景转换为文本提示词，有些复杂的交通场景很难用文本描述或者文本描述太长，提示词太多，系统无法正确输出决策，再有就是它一般只输出决策，不输出具体的路径规划，因此这类应用目前研究的人越来越少。

图片来源：论文《A Survey for Foundation Models in Autonomous Driving》

大语言模型在自动驾驶领域的应用，大部分都是使用的ChatGPT，少数使用META的LlaMA，还有早期的BERT，研究领域主要是仿真领域。功能方面主要是决策领域。方法方面，第一大类型是few shot learning，即少样本学习，Few-shot learning指从少量标注样本中进行学习的一种思想。Few-shot learning与标准的监督学习不同，由于训练数据太少，所以不能让模型去“认识”图片，再泛化到测试集中。而是让模型来区分两个图片的相似性。第二大类型是微调fine tuning，微调是指在已有的预训练语言模型基础上，通过少量的数据来对模型进行进一步的训练，使得模型能够更好地适应新的任务或领域。微调的目的是利用已有的语言模型，尽量减少训练新模型的时间和资源消耗。因此，微调是一种快速迁移学习的方法。与之对应的还有prompt，它是指为了训练特定类型的语言模型而设计的一系列文本或代码提示。prompt可以看作是一种能够帮助语言模型更好地理解特定任务或领域的“指令”。

Vision Foundation在自动驾驶领域有两种应用方式，一种是直接应用在感知领域，另一种则是用来生成接近真实的Corner Case视频。感知领域的应用早在2020年就已经有研究了，最早是谷歌提出的ViT，然后是META提出的DINO，2023年META将DINO升级为DINOV2。这种感知任务通常是object detection和segmentation，无需任何标注零样本也可完成。

META的DINO实例

图片来源：META

视频生成一般是diffusion models，通过重复增加随机高斯噪音，将文本转换为图像乃至视频。目前进一步演变为Latent diffusion models即LDM，也叫stable diffusion。视频生成的基础研究是2018年谷歌DeepMind的论文《Neural Discrete Representation Learning》，即VQ-VAE，在 NLP 中，通常是先有一个 tokenizer，将自然语言转换成一个个的 token，实际就是一个个的离散的整数索引，接下来有一个 embedding 层，查索引获取对应的词嵌入 embedding，然后再送入到模型中处理。因此对于自然语言来说，数据是由一个个 token 组成，是一种离散的数据模态。在计算机视觉中，计算机中的图片也可以说是离散的数据，因为所有可能得图像像素数量也是有限的，一般对彩色图像最多 256 × 256 × 3 种。但由于这个数太大，因此一般认为视频是一种连续的数据模态，一般读图进来，再像素归一化之后直接就输入模型中处理。构建一个图像特征的 codebook（码本，称为 Embedding Space），它的作用就类似于 NLP 中的词嵌入 embedding 层。K 是表征向量， embedding 的个数，是 embedding 的维度。对于一张输入图像，CNN 编码器会提取其特征图，特征图尺寸为 h × w × D，也就是 h × w 个 D维的向量。每个向量在 codebook 中找到与其最接近向量的索引，按索引取得最接近向量，得到量化后特征图，送入解码器即可重构视频。

LDM框架

图片来源：META

视频生成与world model的典型模式就是Wayve之GAIA-1，Wayve是近年来明星自动驾驶创业公司，2023年5月，科技行业最大的三家公司——软银集团（SoftBank Group）、英伟达（Nvidia）和微软（Microsoft）——参与了这家名不见经传的公司的C轮10.5亿美元融资。

GAIA架构

图片来源：Wayve

GAIA架构，将来自所有输入模态（视频、文本、动作）的信息编码为一个公共表示，图像、文本和动作被编码为一系列token；世界模型是一个自回归transformer，它以过去的图像、文本和动作token为条件来预测下一个图像token；最后，视频解码器以更高的时间分辨率将预测的图像token映射回像素空间。Token在ChatGPT中理解为最小的语义单元。GAIA可以看做DINO+Diffusion Model。

为了对应交通规则，也为了更好地收敛函数，需要加入更多的结构化信息。GigaAI和清华大学在GAIA的基础上加入了高精度地图和3D Box，即DriveDreamer。

DriveDreamer的两级系统，第一级生成视频，第二级预测未来动作

图片来源：网络

DriveDreamer框架

图片来源：网络

第一级的Auto-DM

图片来源：网络

视频生成最好是离散向量，文本或3D Box都需要转换，加拿大WAABI提出COPILOT4D

输入的token是离散化的激光雷达BEV鸟瞰向量，更接近真实。

图片来源：WAABI

最后来看目前最火爆的多模态基石大模型在自动驾驶中的应用，首先要了解什么是多模态基石大模型multi-modal foundation models。

AI大模型发展路线

图片来源：微软

视觉是人类和许多生物感知与世界互动的主要渠道。人工智能（AI）的核心愿望之一是开发AI Agent来模仿这种能力，以有效地理解和生成视觉信号（视频），从而对现实世界进行推理和互动。构建具有视觉能力的基准模型是人类的终极目标，也就是所谓的多模态基石大模型multi-modal foundation models，有时简写为MFM。

MFM包括三部分，第一是视频理解模型Visual Understanding Models。三级范围(图像级→区域级→像素级)，三类方法(基于监督信号不同，标签监督【如ImageNet】/语言监督【如CLIP和ALIGN】/仅图像自监督【如对比学习等】/多模态融合【如CoCa/Flamingo/GLIP/SAM】) ；第二是视频生成模型Visual Generation Models，三大技术 (VQVAE方法/基于扩散的模型/回归模型)，两类：文本到视频生成模型{DALL-E/Stable Diffusion/Imagen}+文本到视频生成模型{Imagen Video/Make-A-Video}、人类对齐的视频生成器) 。第三是视频语言预训练(VLP)。

最早的且相当知名的multi-modal foundation models是OpenAI的CLIP（Contrastive Language-Image Pre-training），在2021年推出，即用语言大模型来理解图像。CLIP使用了对比学习的方法，即通过正样本（匹配的图像-文本对）和负样本（不匹配的图像-文本对）来训练模型。在训练过程中，模型会尝试最大化正样本对的相似度（比如通过计算余弦相似度），同时最小化负样本对的相似度。LLaVA（Large Language and Vision Assistant）是一个由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布的多模态大模型。它就是将一个预训练的视觉编码器（CLIP ViT-L/14）与一个大规模语言模型（META之LLaMA的Vicuna）通过简单的矩阵映射连接在一起。

图片来源：华为诺亚方舟实验室

华为诺亚方舟实验室与香港大学则提出DriveGPT4，比GPT4V略微好一点点。此外还有考虑音频的Video-LlaMA。

总结来看，端到端自动驾驶的核心就是多模态基石大模型，车厂根本没有能力与OpenAI、谷歌和META这些科技巨头相比，马斯克则费尽心机和资金搞自己的Grok，与科技巨头还是差距明显。端到端自动驾驶最强之处是对于Corner Case的理解，但硬规则的交通信号灯，空间感和方位感还很缺乏，这是多模态基石大模型与生俱来的缺陷，因为对应的海量高质量数据远远低于文字这样的海量高质量数据。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

更多佐思报告

佐思2024年研究报告撰写计划

智能网联汽车产业链全景图（2024年8月版）

云端和AI
车云	OTA研究	自动驾驶仿真
汽车云服务研究	自动驾驶地图
TSP与应用服务	V2X和车路协同
数据闭环研究	路侧智能感知
车路云一体化研究
AI大模型	汽车AI大模型研究	AI大模型对整车智能化影响
座舱AI Agent	车载AI Agent产品开发与商业化

智驾系统集成和应用层
自动驾驶应用框架	ADAS与自动驾驶Tier1-国内	本土车企ADAS
ADAS与自动驾驶Tier1-国外	国外OEM ADAS研究
L3/L4级自动驾驶和初创企业	理想L8/L9功能拆解
智能驾驶Tier1前10强对比
自动驾驶算法和系统	端到端智驾研究	行泊一体研究
冗余系统	舱泊一体
智驾融合算法	舱行泊融合
汽车视觉算法	无人配送车
领航辅助驾驶（NOA）
感知	毫米波雷达	汽车视觉
激光雷达研究	红外夜视
激光雷达核心部件	车用超声波雷达
软件定义雷达	车载摄像头Tier2

智舱系统集成和应用层
智能座舱应用框架	智能座舱Tier1	座舱设计趋势
智能座舱平台
座舱显示	车载VR/AR/MR研究	HUD产业链
仪表和中控显示	电子后视镜
座舱多屏与联屏	行车记录仪
HUD产业研究	智能玻璃
座舱交互	车载语音	车载香氛与空气净化
舱内监控研究	汽车音响
汽车多模态交互	智能表面
手势交互发展
座舱互联娱乐与生态	汽车生态域	自主品牌车联网
汽车数字钥匙	合资品牌车联网
车载支付	新势力品牌车联网
车载信息娱乐	商用车车联网
汽车eCall系统	商用车智能座舱
座舱其他	汽车舒适系统	智能车门
汽车照明	上海车展75项趋势
车载无线充电	两轮车智能化

OS和支撑层
SDV框架	软件定义汽车	汽车软件业务模式
基础软件/系统平台	AUTOSAR研究	汽车操作系统
数字仪表OS
信息安全/功能安全	汽车信息安全	汽车功能安全

电子电气架构层
E/E架构框架	E/E架构	汽车电子代工
48V低压供电网络
智驾域	自动驾驶SoC	ADAS域控组件
自动驾驶域控
座舱域	智能座舱平台	座舱域控
座舱SoC	8295座舱域控制器拆解
车控域	车身(区)域控研究	汽车VCU研究
电驱动和动力域控制器
通信/网络域	车内通信芯片	商用车T-Box
无线通讯模组	高精度定位
汽车网关	车载天线
乘用车T-Box	汽车UWB研究
跨域融合	多域计算和区域控制器
区域和中央计算	车身(区)域控研究
其他芯片	汽车MCU研究	车用RISC-V研究
车载存储芯片	传感器芯片
电源管理芯片	汽车CIS研究

动力层
动力	混合动力报告	电源管理芯片
800V高压平台	电驱动与动力域研究
IGBT及SiC研究
能源	一体化电池	充换电研究
燃料电池	移动充电机器人
固态电池	数字电源及芯片
其他	热管理系统	一体化压铸

机械层
底盘/执行	乘用车底盘域控	电控悬架
线控制动&AEB	智能转向关键组件
转向系统	商用车智能底盘

其他宏观
车型平台	车企模块化平台	主机厂车型规划研究
出海	主机厂海外布局
政策、标准、准入	智驾法规和汽车出海	自动驾驶标准与认证
AI机器人	PBV及汽车机器人	无人配送车
移动充电机器人	飞行汽车

「佐思研究月报」

联系方式

（手机号同微信号）返回搜狐，查看更多

责任编辑：

我是汽车小当家

端到端自动驾驶的核心：Foundation Models基石大模型