腾讯发布MoE模型Scaling Law:激活参数量与模型效率的新突破

近日,腾讯在AI领域的一次重磅发布中,推出了其开源的MoE(Mixture of Experts)模型,命名为Hunyuan-Large。该模型配备了3890亿个参数,其中520亿是激活参数,成为当前市面上参数规模最大的开源MoE模型,显示了腾讯在技术创新及开源社区中的雄心。

Hunyuan-Large不仅在参数量上具有显著优势,其性能表现也令人瞩目。早期测试表明,该模型的表现超越了多款热门开源模型,如Llama3等,支持的上下文长度达到了256K,这对于处理长文本信息具有巨大潜力。腾讯表示,尽管Hunyuan-Large尚未成为内部旗舰模型,但其技术架构与公司其他高端模型有着“同宗同源”的关系,许多技术都经过了内部实用场景的考验。

在Hunyuan-Large的发布中,腾讯特别强调了MoE模型的Scaling Law公式:C≈9.59ND+2.3×10⁸D。其中,C代表计算预算(以FLOPs为单位),N表示激活参数数量,D则是训练数据量。这一公式的提出,不仅丰富了MoE模型的理论基础,也为今后的模型设计提供了重要的指导。

为了确定最佳的激活参数量,腾讯团队进行了大量实验。经过对不同参数范围(从10M到1B)以及不同训练数据量(最多1000亿token)的反复试验,最终得出的最佳激活参数量为58.1B。最终选择52B的激活参数量,是基于计算资源的现实考量和训练过程中的稳定性需求。

在路由和训练策略方面,Hunyuan-Large采用了混合路由策略,结合了共享专家和特殊专家。此策略允许模型在处理每个token时同时激活一个共享专家和一个专门专家,以提高模型的任务处理能力和灵活性。此外,专家回收机制的引入进一步优化了模型的负载均衡,确保了训练过程中的数据利用率和模型的收敛速度。

值得一提的是,Hunyuan-Large引入了高质量的数据合成流程,通过多个阶段的处理来生成丰富且多样化的指令-回答对。这一流程的设计包括指令生成、演化及回答质量过滤,显著提升了模型在复杂任务下的表现。

为了加强长文本处理能力,该团队采用了分阶段的训练策略,将文本长度从32K扩展到256K,并对RoPE位置编码进行了优化。这种策略有效提升了模型对长文本的理解和生成能力,特别在信息抽取和数值推理等应用场景中表现突出。

在推理效率方面,腾讯展示了其在KVCache内存占用上的压缩效果,结合Grouped-Query Attention(GQA)和Cross-Layer Attention(CLA)两种技术,使得内存占用降低了近95%,大大提升了模型的实际应用效率。

此外,在后续的训练优化中,腾讯为Hunyuan-Large采用了监督微调和人类反馈强化学习两种策略,确保模型在多个关键领域的响应能力和表现始终高效。整个过程不仅关注模型的高精度输出,也注重人类对齐,提高了模型的可控性和用户信任。

腾讯此次开源Hunyuan-Large模型的举动,反映了其对推动AI技术普及和应用的承诺。随着腾讯持续扩展其开源模型的生态,未来或将推出更多中小型模型以服务于个人开发者和小型企业,为这场技术革命提供了更多可能性。Hunyuan-Large目前已经在HuggingFace平台上线,期待更多开发者的参与与创新。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
作者声明:本文包含人工智能生成内容
阅读 ()