【新智元报道】在科技进步如火如荼的今天,南洋理工大学S-Lab团队带来了一个划时代的里程碑——全球首个「视频教学」评测基准Video-MMMU。这个突破性的项目旨在探究多模态大模型(LMMs)是否能够通过视频进行知识获取。
想象一下,假如AI能够像我们一样,坐在吴恩达的机器学习课堂上,通过生动的视频逐步理解知识,那将是多么有趣的场景!Video-MMMU就是在这样的背景下应运而生,它让AI从单纯的「看懂」视频,提升到真正「学会」视频中的知识,并能够实际应用于解决问题。它不仅是科技的进步,也是对智能分类的重新定义。
认识Video-MMMU:从感知到应用
教育学认为,学习是一个渐进的过程,而Video-MMMU正是围绕这一点制定的。它将学习分为三个认知阶段:感知(Perception)、理解(Comprehension)和运用(Adaptation)。在感知阶段,AI需要提取视频中的关键信息;进入理解阶段时,则要更深层次地分析和掌握这些信息;最终,在运用阶段,模型需将所学运用到全新情境中,真正实现学以致用。
知识增益:AI成长的量度
Video-MMMU的另一个创新之处是「知识增益」指标(∆knowledge),它量化了模型在学习后能力的提升。通过这一指标,我们可以清晰地看到AI在观看视频后获得的知识增益。不仅如此,Video-MMMU还结合多种专业领域,覆盖了艺术、商业、医学等六大领域,提供了300个大学级教育视频,拥有高难度和高度专业化的 900 个问答对。
AI与人类的对决:还是人类更胜一筹
通过与人类专家的比较,实验结果表明,尽管Claude-3.5-Sonnet等模型在表现上相对突出,但仍与人类相差甚远。人类在视频观看后的知识增益高达33.1%,而表现最佳的模型仅达到15.6%。更有意思的是,一些模型在观看视频后,其原本的知识反而下降,说明它们在学习应用上存在明显缺陷。
结论:架起AGI之桥
Video-MMMU不仅揭示了当前多模态大模型在知识获取中的严峻挑战,更为提升AI学习效率提供了新思路。通过探讨如何提高AI从视频中学习知识的能力,Video-MMMU正逐步为通用人工智能(AGI)的实现架起桥梁。未来,让我们拭目以待,看看AI将如何演绎人类的学习之旅!返回搜狐,查看更多