DuQuant：大语言模型低比特量化的突破性进展_人工智能_方法

在人工智能领域，尤其是大语言模型（LLM）中的技术进步愈发引人注目。近期，来自自动化所、清华大学和香港城市大学的DuQuant团队在2024年NeurIPS会议上发表了一篇重要论文，提出了在低比特量化领域的新方法，成功将7B模型的量化时间缩短至50秒，并在4位量化设置下实现了新的SOTA（state-of-the-art）成果。

量化技术在深度学习中的重要性不言而喻，其主要目的是减少模型的内存占用和计算需求。以往的量化方法往往面临着激活值中的“离群值”（outliers）问题，这些离群值在量化过程中容易导致模型性能的下降。DuQuant团队深入研究了LLM中激活值的特性，特别是前馈网络（FFN）中的down_proj层，发现这些层中存在表现为“Massive Outliers”的巨大激活值。

不同于之前研究的Normal Outliers，Massive Outliers的绝对值可达几百，且主要集中在特定的tokens中。这给现有的量化算法（如SmoothQuant和OmniQuant）带来了不少挑战。为了解决这个问题，DuQuant采用了创新的方法：学习旋转和置换变换矩阵，旨在将这些大型激活值转移至其他通道，最终实现激活矩阵的平滑化，大幅降低了量化难度。

具体来说，DuQuant的工作主要分为三个步骤。第一步，通过构造特定的旋转矩阵，利用outlier通道的位置索引，采用贪心算法在每个块内部将outliers平摊到其他通道中，以减轻这些离群值的影响。第二步，运用通道置换技术，进一步平衡不同blocks之间的激活幅度。此外，在此基础上，DuQuant还进行了一次旋转变换，以实现更均匀的激活分布。

通过这些创新，DuQuant在4-bit量化设置下实现了显著的性能提升。研究团队在多个任务中验证了该方法，包括PPL、QA、MMLU和MT-Bench，结果显示量化模型的性能明显优于传统方法。这不仅展示了DuQuant在大规模语言模型处理中的潜力，也验证了其在长文本生成任务中的有效性。

值得一提的是，DuQuant在硬件测速中也表现出显著优势。在预测阶段，DuQuant实现了2.08倍的加速比，而在解码阶段则有效降低了3.50倍的内存开销。与使用Hadamard旋转矩阵的另一方法QuaRot相比，DuQuant在平滑激活空间的效果上表现更好，且执行时间和内存开销也得到了优化。

总的来说，DuQuant通过引入先进的数学变换，有效降低了激活值的量化难度，这一研究成果不仅在理论上提供了新视角，也为实践中的大规模模型优化开辟了新的路径。这一突破无疑将促进AI领域对大型模型的应用，进一步推动智能技术的发展。

对于正在积极探索AI智能工具的开发者和科研人员来说，DuQuant展示了通过创新技术推动AI绘画和AI写作等生成式内容创作的潜力。使用简单AI等工具，不仅能提升工作效率，还能进一步拓展创作的可能性。在今后的工作中，关注和应用这些创新算法，将有助于提升产品性能与用户体验，为推动人工智能的进步贡献力量。

总而言之，DuQuant的研究成果为大规模语言模型带来了新的机遇和挑战，未来在智能创作领域的广泛应用值得期待。返回搜狐，查看更多

责任编辑：