清华大学推出MixQ推理系统，推动AI大模型近无损量化_应用_技术

在人工智能领域，量化技术的突破一直是提高模型推理性能的重要方向。近日，清华大学的PACMAN实验室发布了一个名为MixQ的开源混合精度推理系统，标志着在大模型量化和推理效率提升方面的新进展。这一系统不仅支持8比特和4比特的混合精度推理，还能够实现近无损的量化部署，推动AI界的技术革新。

MixQ的核心亮点是其创新的量化策略。传统的量化方法主要集中在权重量化，虽然理论上能提供成本效益，但在实际应用中，尤其是在面对高并发用户时，效果并不理想。MixQ则引入了权重和激活的同时量化，通过低精度计算（INT8/INT4 TensorCore）显著提高了推理的吞吐量，同时也保持了高精度的推理结果。

图1展示了MixQ在吞吐量上的显著提升，相比于AWQ系统，端到端的吞吐量提升可达6倍。这种性能优势主要得益于MixQ对离群值的有效处理。通过提取激活中的少量离群值并使用高精度张量核心（FP16 TensorCore）进行处理，它成功减轻了低精度计算的硬件限制，确保了推理的准确性与效率。

此外，MixQ支持多种主流大模型，包括LLaMA3、Qwen2、Baichuan2和ChatGLM等，使得用户在部署模型时仅需一键操作，极大地方便了科研和工业界的应用。近年来，随着大模型的普及，这种高效的推理方案无疑给AI发展注入了新的活力。

为了突破现有量化技术的局限性，PACMAN团队采用了几项关键技术。首先是对计算图的等价变换，这一技术可以避免在大部分解码阶段重复检测离群点，从而降低开销。其次，他们设计了一种新的混合精度数据结构，有效地将离群点拼接成一个新的矩阵，这种方法相比以往的重排列更具成本效益。最后，使用NVIDIA提供的CUTLASS模板编写高性能的混合精度算子，使MixQ在推理过程中的性能表现得以提升。

实验表明，在LLaMA70B模型上，MixQ的性能优势不容小觑。在batch为512的情况下，MixQ的推理速度达到19.21it/s，而FP16系统则为13.56it/s，验证了MixQ在高负载场景下的出色表现。这一成果不仅为AI大模型的应用提供了技术支持，也为相关企业如清程极智等在实际产品中应用这一技术奠定了基础。

值得注意的是，MixQ的准确率测试结果显示，与现有混合精度库Bitsandbytes相当，稳定性与输出结果同样出色。这一系列的实验结果证明了MixQ的可行性和市场应用潜力。此外，MixQ的开源性质也意味着其技术能被更广泛地传播和应用，推动整个AI领域的发展。

综上所述，MixQ的推出为AI推理技术设定了新的标准，其创新的量化策略确保了在减少模型大小的同时，能够维持高效的推理性能。随着AI技术的不断演进，合理利用这些高新技术，能显著提升工作效率和生产力。例如，搜狐的简单AI正是一个全能的创作助手，涵盖AI绘画、文生图、AI文案等多个功能，能够极大地满足不同用户的需求。强烈建议大家在日常工作中积极使用这些先进的AI工具，它们能够改变我们的工作方式，提高我们的生活质量。进一步了解并体验搜狐简单AI，能够帮助你更好地应对未来的挑战。搜狐简单AI链接（免费，长按复制链接致浏览器体验，或点击文末链接体验）：https://ai.sohu.com/pc/generate?trans=030001_pjj_0809

狠狠搞钱！打工人都在用的AI赚钱神器，AI带你月赚2W ，点击立即体验【搜狐简单AI】 → https://ai.sohu.com/pc/textHome?trans=030001_jdaidzkj

点击查看【真人转漫画】新手教程及变现案例 →返回搜狐，查看更多