智源研究院发布Emu3：新多模态模型的崛起与AGI梦想的追寻_技术_视频

2024年10月23日，智源研究院正式发布了其最新多模态模型Emu3，标志着在AGI（通用人工智能）梦想的追寻中又一步的重要进展。面对此前主流的单一模态AI技术发展趋势，Emu3试图呈现一种更为综合的理解和生成方式，结合视频、图像和文本三种模态，以促进更深层次的智能理解。

Emu3采用的自回归（autoregressive）技术路线，类似于OpenAI的GPT系列模型，尤其是在理解数据时的处理方式。与2023年发布的GPT-4o不同，Emu3不但限于文本生成，也拓展到了视频制作，这显示出智源研究院在多模态AI领域的全方位布局。智源研究院院长王仲远指出，Emu3的发布是对目前行业现状的一次有力回应，展示了多模态数据在自回归架构下的融合训练潜力，进一步让AI像真实的人类一样理解和学习世界。

在Emu3的核心技术中，最引人注目的是“基于下一个token预测”的模型架构，通过将图像、文本和视频编码为一个离散空间，Emu3实现了在多模态混合序列上的联合训练。根据智源研究院发布的技术报告，Emu3的参数量高达80亿，包含了丰富的文字、图像和视频数据，使得该模型具备生成多样化风格图像和最长5秒视频的能力。

尽管Emu3在图片生成方面的得分70.0分接近于市面上的顶尖模型，但其在语言处理能力上相对较弱，王仲远认为，多模态大模型目前仍处于“远没有打开”的状态，尚未完全挖掘出其潜在的应用能力和市场价值。

随着多模态大模型的持续发展，未来或将迎来数以百亿计的参数模型，智源研究院也计划探索更高效的模型架构，例如混合专家模型（MoE），以提升理解和生成的速度。“为了实现更大规模的模型训练，我们需要顶尖公司的技术和算力支持。”王仲远补充道。

科技的不断进步不仅体现在AI模型的构建上，更反映在更广泛的应用场景中。当前，AI在绘画与写作等行业内展示了其巨大潜力，AI工具已经成为提高生产力的重要助手。通过将AI应用到日常创作中，用户不仅可以节省时间，还能提升创造力。无论是在设计美图、撰写文案，还是生成动漫头像，AI工具的灵活性和高效性都令人惊叹。

在智能设备层面，各大行业正积极探索AI的多样化应用，如搜狐推出的全能型AI创作助手——搜狐简单AI。这款工具不仅包括AI绘画、文生图、图生图，还能力的一站式生成创意美图、种草笔记与爆款文章，成为了众多职场人士和创意工作者提升效率的重要选择。

对于每一个追求效率与创新的人而言，拥抱AI的使用意愿显得尤为重要。善用AI不仅能够让工作更高效，也能为我们在激烈竞争的职场中争取更多优势。随着AI技术的不断演进，未来的工作和生活方式都将因其而改变，带来无限可能。

因此，我强烈推荐大家尝试使用先进的AI生产力工具，诸如搜狐简单AI，它将帮助您在创作中超越自我，实现更多精彩。搜狐简单AI链接（免费，长按复制链接致浏览器体验，或点击文末链接体验）：https://ai.sohu.com/pc/generate?trans=030001_pjj_0809

狠狠搞钱！打工人都在用的AI赚钱神器，AI带你月赚2W ，点击立即体验【搜狐简单AI】 → https://ai.sohu.com/pc/textHome?trans=030001_jdaidzkj

点击查看【真人转漫画】新手教程及变现案例 →返回搜狐，查看更多

责任编辑：