苹果与英伟达强强联手,打造超速AI响应新纪元!

苹果与英伟达合作提高大模型推理效率。

苹果与英伟达强强联手,打造超速AI响应新纪元!

原标题:苹果正在与英伟达合作,想让 AI 的响应速度更快
文章来源:爱范儿
内容字数:3184字

苹果与英伟达合作加速大模型推理性能

近日,苹果与英伟达宣布了一项合作,旨在提升大语言模型(LLM)的推理性能。这一合作的核心是苹果开源的「ReDrafter」技术,旨在解决传统自回归 LLM 在推理效率和内存带宽方面的不足。

1. ReDrafter 的核心技术

ReDrafter 通过三项关键技术提升推理速度:

  • RNN 草稿模型: 该模型利用循环神经网络(RNN)预测可能的 tokens 序列,能够捕捉局部时间依赖性,提高预测准确性。
  • 动态树注意力算法: 该算法优化束搜索的候选序列,识别共享前缀,减少需要验证的 tokens 数量,从而提高计算资源的利用效率。
  • 知识蒸馏训练: 通过将大型 LLM 的知识转移到更小的 RNN 草稿模型,提升了推理的准确性和效率。

2. 推理速度的显著提升

苹果的基准测试结果显示,集成 ReDrafter 的 TensorRT-LLM 在 NVIDIA H100 GPU 上的贪心解码速度提高了 2.7 倍,而在 M2 Ultra Metal GPU 上也实现了 2.3 倍的加速。这一提升不仅降低了计算成本,还减少了用户端的延迟。

3. 面向更广泛的应用

ReDrafter 的技术具有较小的 GPU 资源需求,能够在资源受限的环境中高效运行,为 LLM 在多种硬件平台的应用提供了新的可能性。苹果已将这一技术开源,未来其他公司也可能从中获益。

总之,苹果与英伟达的合作和 ReDrafter 的推出标志着大语言模型推理技术的一个重要进步,有助于推动生产应用程序的高效性和可用性。


联系作者

文章来源:爱范儿
作者微信:
作者简介:关注明日产品的数字潮牌

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...