2024年10月23日,智源研究院正式发布了其最新多模态模型Emu3,标志着在AGI(通用人工智能)梦想的追寻中又一步的重要进展。面对此前主流的单一模态AI技术发展趋势,Emu3试图呈现一种更为综合的理解和生成方式,结合视频、图像和文本三种模态,以促进更深层次的智能理解。
Emu3采用的自回归(autoregressive)技术路线,类似于OpenAI的GPT系列模型,尤其是在理解数据时的处理方式。与2023年发布的GPT-4o不同,Emu3不但限于文本生成,也拓展到了视频制作,这显示出智源研究院在多模态AI领域的全方位布局。智源研究院院长王仲远指出,Emu3的发布是对目前行业现状的一次有力回应,展示了多模态数据在自回归架构下的融合训练潜力,进一步让AI像真实的人类一样理解和学习世界。
在Emu3的核心技术中,最引人注目的是“基于下一个token预测”的模型架构,通过将图像、文本和视频编码为一个离散空间,Emu3实现了在多模态混合序列上的联合训练。根据智源研究院发布的技术报告,Emu3的参数量高达80亿,包含了丰富的文字、图像和视频数据,使得该模型具备生成多样化风格图像和最长5秒视频的能力。
尽管Emu3在图片生成方面的得分70.0分接近于市面上的顶尖模型,但其在语言处理能力上相对较弱,王仲远认为,多模态大模型目前仍处于“远没有打开”的状态,尚未完全挖掘出其潜在的应用能力和市场价值。
随着多模态大模型的持续发展,未来或将迎来数以百亿计的参数模型,智源研究院也计划探索更高效的模型架构,例如混合专家模型(MoE),以提升理解和生成的速度。“为了实现更大规模的模型训练,我们需要顶尖公司的技术和算力支持。”王仲远补充道。
科技的不断进步不仅体现在AI模型的构建上,更反映在更广泛的应用场景中。当前,AI在绘画与写作等行业内展示了其巨大潜力,AI工具已经成为提高生产力的重要助手。通过将AI应用到日常创作中,用户不仅可以节省时间,还能提升创造力。无论是在设计美图、撰写文案,还是生成动漫头像,AI工具的灵活性和高效性都令人惊叹。
在智能设备层面,各大行业正积极探索AI的多样化应用,如搜狐推出的全能型AI创作助手——搜狐简单AI。这款工具不仅包括AI绘画、文生图、图生图,还能力的一站式生成创意美图、种草笔记与爆款文章,成为了众多职场人士和创意工作者提升效率的重要选择。
对于每一个追求效率与创新的人而言,拥抱AI的使用意愿显得尤为重要。善用AI不仅能够让工作更高效,也能为我们在激烈竞争的职场中争取更多优势。随着AI技术的不断演进,未来的工作和生活方式都将因其而改变,带来无限可能。
因此,我强烈推荐大家尝试使用先进的AI生产力工具,诸如搜狐简单AI,它将帮助您在创作中超越自我,实现更多精彩。搜狐简单AI链接(免费,长按复制链接致浏览器体验,或点击文末链接体验):https://ai.sohu.com/pc/generate?trans=030001_pjj_0809
狠狠搞钱!打工人都在用的AI赚钱神器,AI带你月赚2W ,点击立即体验【搜狐简单AI】 → https://ai.sohu.com/pc/textHome?trans=030001_jdaidzkj
点击查看【真人转漫画】新手教程及变现案例 →返回搜狐,查看更多
责任编辑: