2024年多模态大模型(MLLMs)轻量化方法研究现状和展望报告-中移智库

多模态大语言模型概述

定义:融合大语言模型与多模态处理能力,能处理多种模态数据并执行跨模态任务。

轻量化原因:模型资源需求高,开发部署受限,云端运行存在普及和隐私问题,高算力需求限制边缘设备应用,轻量化可降低资源消耗、提高适用性并减少性能损失。

轻量化方法研究现状

三个核心模块优化

视觉编码器:多选用预训练模型,其轻量化优化效果不如语言模型显著,多数沿用大规模模型中的编码器。

预训练大语言模型:获取小模型有直接使用小型轻量化模型(如phi2 - 2.7B、Gemma - 2B等)和使用模型压缩技术(如量化、剪枝等)两种方案。

视觉 - 语言投影器:轻量化方法包括基于注意力(如BLIP2引入Q - Former)、基于CNN(如MobileVLMv2提出LDPv2)、基于Mamba(如VL - Mamba实现VSS技术)和混合结构(如卷积抽象器)。

视觉token压缩

多视图输入:输入高分辨率图像的低分辨率全局视图和局部视图,如LLaVA - UHD的图像模块化策略。

token处理:如LLaVA - PruMerge和MADTP提出适应性视觉token减少方法。多尺度信息融合**:如Mini - Gemini模型用两个编码器提取不同分辨率图像特征并融合。

视频特定方法:如VideoLLaVA基于LanguageBind构建,避免视频理解中的巨大计算负担。

高效的结构

专家混合模型:调节模型参数总数增强容量且不影响推理速度,如MoE - LLaVA框架。

Mamba:新型高效序列建模方法,如Cobra将其融入视觉模态开发高效多模态Mamba。

推理加速:根据任务特性调整模型架构,如SPD通过推测解码提高推理效率。

展望

- 突破多模态信息处理局限,拓展能处理更多元模态标记的复杂模型,用于长视频理解和混合文档分析等。

- 扩展输入输出模态,增强模型多功能性和应用领域。

- 开发可边缘部署的轻量化模型,推动机器人等智能设备发展,提升其环境理解、任务执行和人机交互能力。

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()