ECCV 2024 | 首次基于深度聚类的多模态融合，双向结构对齐的融合网络新SOTA_图像_特征

©作者 |刘久铭

单位 | 上海交大IRMV实验室

研究方向 | 点云配准、多模态融合

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。

以往基于学习的方法大多采用图 1 a) 所示的特征级融合策略，无法捕捉细粒度像素到点的对应关系。最近，一些网络设计了点到图像的投影和局部特征聚合，如图 1 b) 所示，但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。

为了解决这些问题，来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。

论文链接：

https://arxiv.org/pdf/2403.18274

代码链接：

https://github.com/IRMVLab/DVLO

DVLO 的融合模块由两部分组成：1）首先将图像视为一组伪点，与激光雷达点进行细粒度局部融合（图像到点的结构对齐）。2) 点云也通过圆柱投影转换为伪图像，用于全局自适应融合（点到图像结构对齐）。

▲ 图1. 图像和点云的不同融合策略。之前的大多数研究都只进行全局融合或局部融合。DVLO 设计了一种局部到全局的融合策略，既能促进全局信息的交互，又能保留局部的细粒度信息。此外，还设计了双向结构对齐，以最大限度地提高模态间的互补性。

总体而言，该论文的贡献如下：

1. 提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。论文作者将图像像素视为一组伪点进行聚类，以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像，用于全局自适应融合。

2. 设计了一个纯粹基于聚类的融合模块，以获得细粒度的局部融合特征。论文中提出的方法是首次基于深度聚类的多模态融合尝试，是 CNN 和 Transformer 之外的另一种高效融合策略。

在 KITTI 里程计数据集上进行的大量实验表明，DVLO 的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外，DVLO 的融合策略还能很好地应用于其他多模态任务，如场景流估计，甚至超过了最近的 SOTA 方法 CamLiRAFT。

▲ 图2. DVLO 流程图

方法

总体结构

DVLO 的总体结构如图 2 所示。给定两个点云

，及其对应的来自一对连续帧的单目相机图像

，里程计目标是估计两个帧之间的相对位姿，包括旋转四元数

和平移向量

。

▲ 图3. 研究团队设计的局部到全局（LoGo）融合模块

层次特征提取

点特征提取

由于原始点云的不规则性和稀疏性，首先将其投影到一个圆柱面 [30, 54] 上，以有序地组织点。其对应的二维位置为：

其中，x、y、z 是点云的原始三维坐标，u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。

图像特征提取

给定摄像机图像

，利用 [17] 中基于卷积的特征金字塔提取图像特征

。其中，

、

是特征图的高度和宽度。C 是图像特征的通道数。

局部融合器模块

从图像到伪点

给定图像特征

后，首先将其重塑为伪点集合

，其中

为伪点个数。在这种情况下，图像具有与激光雷达点相同的数据结构，这有利于建立局部像素与点的对应关系，并进一步进行基于聚类的特征聚合。

伪点聚类

首先将激光雷达点投影到图像平面上，得到其在图像坐标系中对应的二维坐标 x′ 和 y′，作为聚类中心。根据 x′、y′ 对

进行双线性插值，计算出中心特。

然后，根据中心特征

和伪点特征

的成对余弦相似度，将所有伪点划分为若干个聚类。在此，将每个伪点分配到最相似的聚类中心，从而得到 N 个聚类。为了提高效率，按照 Swin Transformer，在计算相似度时使用区域分割。

局部特征聚合

论文作者根据与聚类中心的相似度动态聚合同一聚类内的所有伪点特征。给定聚类包含第 i 个聚类中心以及周围的 k 个伪点，本地融合特征

的计算公式为：

全局融合模块

由于局部特征融合仅在划分的区域内进行，因此上述局部融合模块的感受野有限。为了扩大感受野以进行充分的特征融合，论文作者在局部融合特征

和点（伪图像）特征

之间引入了全局自适应融合机制。

从点到伪图像

通过前文中的圆柱投影将稀疏的激光雷达点转换为结构化的伪图像。在这种情况下，点特征

的大小为

。这一过程将原本稀疏的非结构化点重组为密集的结构化伪图像，从而实现了下面的密集特征图与图像特征的融合。

自适应融合

给定局部融合特征

和点特征

，按以下方式进行自适应全局融合：

其中，

和

是点（伪图像）特征和局部融合特征的自适应权重，由 sigmoid 函数和 MLP 层获得。⊙表示元素与元素之间的乘积。然后，将全局融合特征

重塑为 N ×D 的大小，作为迭代姿态估计的输入。

位姿迭代估计

通过将最粗糙层中两个帧的全局融合特征

和

联系起来，利用代价卷生成粗嵌入特征

。嵌入特征包含两个连续帧之间的相关信息。

然后，利用嵌入特征 E 上的加权嵌入掩码 M 来回归位姿变换。加权嵌入掩码 M 的计算公式为：

其中，

是可学习的掩码。

是源帧中的全局融合特征。然后，通过对嵌入特征和 FC 层加权，生成四元数

和平移向量

：

在初始估计 q 和 t 之后，通过 PWCLO 中的迭代细化模块对它们进行细化，从而得到最终姿势。第 l 层的细化四元数

和平移矢量

的计算公式为：

其中，姿态残差

和

可根据论文中的公式在最粗糙层中通过类似过程获得。

损失函数

四个层的网络输出

和

将用于计算监督损失

。第 l 层的训练损失函数为：

其中，tgt 和 qgt 分别是地面真实平移和四元数。

和

是可学习的标量，用于缩放损失。

和

分别是 L1 和 L2 准则。那么，总训练损失为

其中，L 是层的总数（设为 4），

是代表第 l 层权重的超参数。

实验部分

▲ 表1. 在KITTI里程计数据集上与不同里程计网络的比较

▲ 表2. 在KITTI 00-10序列上与传统视觉-激光雷达里程计的比较

▲ 表3. 在KITTI 09-10序列上与基于学习的多模态里程计的比较

▲ 表4. 不同多模态里程计在KITTI里程计数据集序列07-10上的平均推理时间

▲ 图4. 论文作者估计的位姿轨迹

▲ 图5. LOAM和DVLO在真实的KITTI序列07上的轨迹结果

▲ 图6. 设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。

▲表5. 泛化到场景流估计任务

▲图7. 估计场景流的可视化

消融实验

▲表6. 局部 - 全局融合网络中局部融合器（LoF）和全局融合器（GoF）的有效性

▲表7. 不同局部融合策略的消融研究

更多研究细节，可参考原论文。

关于作者 / About Us

本文的主要作者来自上海交通大学智能机器人与机器视觉（IRMV）实验室。本文第一作者是实验室硕士生刘久铭，主要研究方向为点云配准，雷达里程计，多模态融合，nerf/3DGS 渲染，3D生成等。曾在CVPR，ICCV，ECCV，AAAI等会议发表论文多篇。

本文通讯作者及指导教师为王贺升教授，教授团队近年来在计算机视觉与机器人权威期刊（TPAMI，TRO）与国际顶级学术会议（CVPR，ICCV，ECCV，AAAI，ICRA，IROS）上发表多篇机器人移动定位导航相关论文，与国内外知名高校，科研机构展开广泛合作。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·返回搜狐，查看更多

责任编辑：

科技游乐园

ECCV 2024 | 首次基于深度聚类的多模态融合，双向结构对齐的融合网络新SOTA