只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

AIGC动态欢迎阅读

原标题:只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架
关键字:张量,寄存器,硬件,内存,指令
文章来源:机器之心
内容字数:20123字

内容摘要:


机器之心报道
机器之心编辑部提高 GPU 利用率,就是这么简单。AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。
为了回答这一问题,来自斯坦福的研究者在博客《GPUs Go Brrr》中给出了答案。博客地址:https://hazyresearch.stanford.edu/blog/2024-05-12-tk
文章主要专注于两个问题:一是硬件真正需要什么?二是如何满足硬件需求?
文章用大量篇幅讨论了如何让 GPU 更快的运行,并发布了一个库 ThunderKittens,用户可以很容易地在 CUDA 上编写快速的深度学习内核。其具有以下特点:
简单,ThunderKittens 写起来非常简单。
可扩展性,如果用户需要 ThunderKittens 无法提供的功能,可以进行功能扩展。
速度快。GitHub 链接:https://github.com/HazyResearch/ThunderKittens
ThunderKittens 使得一些棘手的事情变得非常简单,从而在现代硬件上实现了非常高的利用率。项


原文链接:只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...