腾讯发布MoE模型Scaling Law：激活参数量与模型效率的新突破_训练_策略

近日，腾讯在AI领域的一次重磅发布中，推出了其开源的MoE（Mixture of Experts）模型，命名为Hunyuan-Large。该模型配备了3890亿个参数，其中520亿是激活参数，成为当前市面上参数规模最大的开源MoE模型，显示了腾讯在技术创新及开源社区中的雄心。

Hunyuan-Large不仅在参数量上具有显著优势，其性能表现也令人瞩目。早期测试表明，该模型的表现超越了多款热门开源模型，如Llama3等，支持的上下文长度达到了256K，这对于处理长文本信息具有巨大潜力。腾讯表示，尽管Hunyuan-Large尚未成为内部旗舰模型，但其技术架构与公司其他高端模型有着“同宗同源”的关系，许多技术都经过了内部实用场景的考验。

在Hunyuan-Large的发布中，腾讯特别强调了MoE模型的Scaling Law公式：C≈9.59ND+2.3×10⁸D。其中，C代表计算预算（以FLOPs为单位），N表示激活参数数量，D则是训练数据量。这一公式的提出，不仅丰富了MoE模型的理论基础，也为今后的模型设计提供了重要的指导。

为了确定最佳的激活参数量，腾讯团队进行了大量实验。经过对不同参数范围（从10M到1B）以及不同训练数据量（最多1000亿token）的反复试验，最终得出的最佳激活参数量为58.1B。最终选择52B的激活参数量，是基于计算资源的现实考量和训练过程中的稳定性需求。

在路由和训练策略方面，Hunyuan-Large采用了混合路由策略，结合了共享专家和特殊专家。此策略允许模型在处理每个token时同时激活一个共享专家和一个专门专家，以提高模型的任务处理能力和灵活性。此外，专家回收机制的引入进一步优化了模型的负载均衡，确保了训练过程中的数据利用率和模型的收敛速度。

值得一提的是，Hunyuan-Large引入了高质量的数据合成流程，通过多个阶段的处理来生成丰富且多样化的指令-回答对。这一流程的设计包括指令生成、演化及回答质量过滤，显著提升了模型在复杂任务下的表现。

为了加强长文本处理能力，该团队采用了分阶段的训练策略，将文本长度从32K扩展到256K，并对RoPE位置编码进行了优化。这种策略有效提升了模型对长文本的理解和生成能力，特别在信息抽取和数值推理等应用场景中表现突出。

在推理效率方面，腾讯展示了其在KVCache内存占用上的压缩效果，结合Grouped-Query Attention（GQA）和Cross-Layer Attention（CLA）两种技术，使得内存占用降低了近95%，大大提升了模型的实际应用效率。

此外，在后续的训练优化中，腾讯为Hunyuan-Large采用了监督微调和人类反馈强化学习两种策略，确保模型在多个关键领域的响应能力和表现始终高效。整个过程不仅关注模型的高精度输出，也注重人类对齐，提高了模型的可控性和用户信任。

腾讯此次开源Hunyuan-Large模型的举动，反映了其对推动AI技术普及和应用的承诺。随着腾讯持续扩展其开源模型的生态，未来或将推出更多中小型模型以服务于个人开发者和小型企业，为这场技术革命提供了更多可能性。Hunyuan-Large目前已经在HuggingFace平台上线，期待更多开发者的参与与创新。返回搜狐，查看更多