在人工智能领域,尤其是大语言模型(LLM)中的技术进步愈发引人注目。近期,来自自动化所、清华大学和香港城市大学的DuQuant团队在2024年NeurIPS会议上发表了一篇重要论文,提出了在低比特量化领域的新方法,成功将7B模型的量化时间缩短至50秒,并在4位量化设置下实现了新的SOTA(state-of-the-art)成果。
量化技术在深度学习中的重要性不言而喻,其主要目的是减少模型的内存占用和计算需求。以往的量化方法往往面临着激活值中的“离群值”(outliers)问题,这些离群值在量化过程中容易导致模型性能的下降。DuQuant团队深入研究了LLM中激活值的特性,特别是前馈网络(FFN)中的down_proj层,发现这些层中存在表现为“Massive Outliers”的巨大激活值。
不同于之前研究的Normal Outliers,Massive Outliers的绝对值可达几百,且主要集中在特定的tokens中。这给现有的量化算法(如SmoothQuant和OmniQuant)带来了不少挑战。为了解决这个问题,DuQuant采用了创新的方法:学习旋转和置换变换矩阵,旨在将这些大型激活值转移至其他通道,最终实现激活矩阵的平滑化,大幅降低了量化难度。
具体来说,DuQuant的工作主要分为三个步骤。第一步,通过构造特定的旋转矩阵,利用outlier通道的位置索引,采用贪心算法在每个块内部将outliers平摊到其他通道中,以减轻这些离群值的影响。第二步,运用通道置换技术,进一步平衡不同blocks之间的激活幅度。此外,在此基础上,DuQuant还进行了一次旋转变换,以实现更均匀的激活分布。
通过这些创新,DuQuant在4-bit量化设置下实现了显著的性能提升。研究团队在多个任务中验证了该方法,包括PPL、QA、MMLU和MT-Bench,结果显示量化模型的性能明显优于传统方法。这不仅展示了DuQuant在大规模语言模型处理中的潜力,也验证了其在长文本生成任务中的有效性。
值得一提的是,DuQuant在硬件测速中也表现出显著优势。在预测阶段,DuQuant实现了2.08倍的加速比,而在解码阶段则有效降低了3.50倍的内存开销。与使用Hadamard旋转矩阵的另一方法QuaRot相比,DuQuant在平滑激活空间的效果上表现更好,且执行时间和内存开销也得到了优化。
总的来说,DuQuant通过引入先进的数学变换,有效降低了激活值的量化难度,这一研究成果不仅在理论上提供了新视角,也为实践中的大规模模型优化开辟了新的路径。这一突破无疑将促进AI领域对大型模型的应用,进一步推动智能技术的发展。
对于正在积极探索AI智能工具的开发者和科研人员来说,DuQuant展示了通过创新技术推动AI绘画和AI写作等生成式内容创作的潜力。使用简单AI等工具,不仅能提升工作效率,还能进一步拓展创作的可能性。在今后的工作中,关注和应用这些创新算法,将有助于提升产品性能与用户体验,为推动人工智能的进步贡献力量。
总而言之,DuQuant的研究成果为大规模语言模型带来了新的机遇和挑战,未来在智能创作领域的广泛应用值得期待。返回搜狐,查看更多
责任编辑: