在过去的一年中,通用多模态AI模型(GMMs)的崛起成为科技界的焦点。我们看到,这些模型在处理多类型数据——如文本、图像、视频,以及时间序列和图数据——时展现出的多功能性,使它们愈发受到关注。通用多模态模型的魅力在于其学习和推理方式与人类智力的运作颇为相似,这也让一些专家认为,继续推进多模态AI的发展是迈向人工通用智能(AGI)的重要一步。
这些创新的GMMs能够轻松跨越不同模态进行学习,并在面对多样的任务时展现出卓越的适应能力。当前市场上的一些代表性通用多模态AI模型包括:NExT-GPT、OneLLM、Meta-Transformer、OFA以及Unified-IO。这些模型的诞生与发展离不开基础模型的突破,其中最为关键的当属2018年引入的基础语言模型(FLMs),如BERT,该模型为后来的大型语言模型奠定了坚实的基础。
同样,在视觉领域,基础视觉模型(FVMs)的进展为多模态AI模型提供了强劲动力。视觉Transformer(ViT)及其组合模型如CLIP和LLaVA,进一步推动了模型的跨模态能力。然而,尽管在语言和视觉领域的研究迅速发展,时间序列模型(FTMs)和基础图模型(FGMs)的建设却依旧缓慢。
典型的多模态模型工作流程包括输入数据预处理器、通用学习模块(编码器、解码器)及输出数据后处理器。输入数据预处理器转换原始多模态数据,使其适合通用学习模块使用,随后编码器将输入数据转化为高维语义空间中的嵌入向量,进行后续的学习和推理。
然而,通用多模态人工智能的发展也面临诸多挑战。数据集的不足是主要问题之一,不同于丰富的单模态数据,全面的多模态数据集相对稀缺,需耗费大量资源去创建和维护。此外,目前的基准测试多侧重于文本和图像,而对于其他模态的评估仍显不足。
尽管如此,推动通用多模态AI的前行仍是科技界的重要任务。未来,这些模型不仅有助于各领域的发展,更可能为实现AGI打下坚实的基础。返回搜狐,查看更多
责任编辑: