PyTorch搭建大型模型“加速包”

日期：2023-12-04 19:09:12 / 人气：577

PyTorch搭建大型模型“加速包”，比1000行代码快10倍！“西风自凹寺来。
量子比特|微信官方账号QbitAI
PyTorch团队将大型模型的推理速度提高了10倍。
而且只需要不到1000行纯原生PyTorch代码！
该项目名为GPT-fast，对加速效果的感知如下:
平稳，非常平稳！

重点是团队直接发布了代码和详细的“教程”。还是简笔画版，特别好理解。
开发小组成员@贺瑞斯说:
我们不把它当成一个库，一个框架，而是希望大家以它为例，根据自己的需求“复制粘贴”。
网友们直接炸开了锅，英伟达AI科学家Jim Fan评论道:
这是自Andrej Karpathy发布minGPT以来最好的教程报告之一！
开源世界需要更多像minGPT和GPT这样的项目——快！
那么，GPT-fast如何加快大型模型的速度呢？
开箱大型号“加速包”
一般来说，使用这些方法:
Torch.compile:专门为PyTorch模型设计的编译器，可以提高模型的运行效率。
GPU量化:通过降低计算的精度来加快模型的运算速度。
预测解码:使用较小的模型预测较大模型的输出，从而加快大型语言模型的运行速度。
张量并行:通过将模型的运算分布在多个硬件设备上，加快处理速度。
让我们逐一展开。
一开始开发团队用的是简单的PyTorch，效果并不好(25.5 tok/s):
他们查看了痕迹后发现，一个原因是由于CPU占用过多导致推理性能受限。
那么如何解决呢？
你可以想象一个场景，GPU是一个巨大的工厂(拥有大量可用的计算能力)，CPU是一辆大车，来回“补给”工厂。
很多情况下，CPU无法足够快地“喂”GPU。
所以开发团队建议给GPU更多的工作量，或者一次性给它更大的“块”任务去处理。
在推理过程中要做到这一点，可以引入torch.compile。
Torch.compile可以在模型中捕获一个更大的区域，编译成一个单独的编译区域。特别是在“减少开销”模式下运行时，有效减少了CPU的开销。
效果立竿见影，性能直接提升4倍，从25 tok/s提升到107 Tok/s；
接下来开发团队想进一步提升速度，却遇到了内存带宽的瓶颈。
开发团队计算了模型的带宽利用率，结果已经达到72%:
也就是说，进一步提速的空间可能是有限的。
重新检查上面的等式，团队发现虽然我们实际上不能改变模型参数或GPU的内存带宽(至少不花更多的钱)，但我们可以改变用于存储每个参数的字节数。
这意味着，虽然不可能改变模型的大小或升级硬件来提高性能，但可以通过减少存储模型参数所需的数据量来提高效率。
通常可以通过量化技术来实现，即减少表示每个参数所需的比特数。
于是，开发团队引入了下一项技术——int 8量化。
用int8进行权重量化，降低了内存负荷，进一步提升了性能(157.4 Tok/s)；
使用量化后，仍然存在一个问题:要生成100个token，模型权重必须被加载(或调用)100次。频繁加载模型权重也会导致效率低下。
乍一看似乎无解，因为自回归生成模型中存在严格的序列依赖性。
但开发团队指出，这种严格的序列依赖可以通过使用推测解码来打破。
再举个例子，想象一下一个高级工程师Verity，他在技术决策上总是正确的，但是写代码的速度相对较慢。
同时还有一个初级工程师德雷克，他和Verity相反，不擅长技术决策，但是写代码更快，成本更低。
那么如何利用不同人的优势来提高整体效率呢？
方法简单。让Drake先写代码，在这个过程中做技术决策。接下来把代码交给Verity审核，让Drake重做错误。
在Transformer模型的推理中，大规模验证模型是Verity角色，而Drake是更小的草稿模型，可以更快地生成文本。
开发团队使用草案模型生成8个token，然后使用验证模型并行处理它们，丢弃不匹配的部分。
结果，串行依赖被打破，速度再次提高。
值得一提的是，推测解码不会改变输出的质量。只要使用草案模型生成令牌+验证这些令牌所需的时间少于单独生成这些令牌所需的时间，这种方法就是有效的。
而且使用原生PyTorch实现这项技术其实非常简单，整个实现过程只需要50行左右的原生PyTorch代码。
由于AMD还支持Triton和torch.compile后端，所以之前在Nvidia GPU上应用的所有优化也可以在AMD GPU上重新应用。
开发团队观察到int8的量子化从22 tok/s加速到102 tok/s:
后来开发团队用int4量化进一步提高了速度，但是模型精度下降了。
因此，使用块量化和GPTQ来降低权重。
最后在保证精度的前提下，速度提升到202.1 tok/s:
结合以上技术，实现244.7 tok/s的更高速度:
到目前为止，R&D团队一直在单个GPU上加速。但其实很多情况下，可以使用多个GPU。
使用多个GPU可以增加内存带宽，从而提高模型的整体性能。
在选择并行处理策略时，需要将一个令牌的处理过程划分在多个设备上，因此需要张量并行。
PyTorch还提供了张量并行的底层工具，可以与torch.compile结合使用。
开发团队还透露，用于表达张量并行性的更高级API也正在开发中。
然而，即使没有更高级别的API，也很容易添加张量并行，它可以在150行代码中实现，而无需对模型进行任何更改。
前面提到的所有优化都可以和张量并行结合。结合这些优化，我们可以以55令牌/秒的速度为Llama-70B提供int8量化。
最后对结果进行总结，忽略量化。仅用766行代码(model.py 244行，generate.py 371行，tp.py 151行)实现了快速推理、推测解码和张量并行。
对于Llama-7B，用compile+int4进行量化和推测解码的速度达到241 Tok/s，对于Llama-70B，通过加入张量并行，可以达到80 tok/s。

作者：安信娱乐平台官网

PyTorch搭建大型模型“加速包”

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →