标签:显存

图解当红推理框架vLLM的核心技术PagedAttention

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
阅读原文

ICML 2024 | 梯度检查点太慢?不降速、省显存,LowMemoryBP大幅提升反向传播显存效率

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

ControlNet作者新项目爆火:仅一张图生成25秒绘画全过程!不到一天GitHub揽星600+

西风 发自 凹非寺量子位 | 公众号 QbitAIControlNet作者张吕敏(Lvmin Zhang)又又又发新作了! 输入任意一张图,分分钟就能“拆解”成一个25秒的图像绘制过程...
阅读原文

首个国产全功能GPU的万卡集群来了!“中国英伟达”出品

金磊 发自 凹非寺量子位 | 公众号 QbitAI纯国产GPU的万卡集群,它来了! 而且还是国内首个全功能GPU,兼容CUDA的那种。 这个集结了超过10000张高性能GPU的超...
阅读原文

现在LLM 的大小为什么都设计成6/7B、13B和130B几个档次?

6月27日15点,3位腾讯云专家将在线直播,分享腾讯云在内容创作、Al问答及知识点提炼、智能调研和报告生成等领域的应用探索和落地实践,欢迎扫码预约直播。导...
阅读原文

最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀

梦晨 发自 凹非寺量子位 | 公众号 QbitAI什么AI应用每秒处理20000个AI推理请求,达到2024年谷歌搜索流量的1/5? 答案是独角兽Character.ai,由Transformer作...
阅读原文

一步文生图大模型还能“更小更快”,MixDQ量化方法无损“瘦身”扩散模型3倍,提速1.5倍

大数据文摘授权转载自将门创投 作者:赵天辰 我们提出了MixDQ,一种面向少步扩散模型的混合比特量化方案。 MixDQ分析定位了“少步扩散模型量化”的独特问题,并...
阅读原文

芯片战争新思路:用英伟达的方式,抗衡英伟达|甲子光年

一场芯片行业的赤壁之战,正在等着英伟达。作者|王艺‍‍‍ 编辑|王博 6月6日,英伟达市值达到了3.01万亿美元,超过苹果成为全球市值第二高的公司,仅次于微软...
阅读原文

腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

国产开源MoE指标炸裂:GPT-4级别能力,API价格仅百分之一

明敏 发自 凹非寺量子位 | 公众号 QbitAI最新国产开源MoE大模型,刚刚亮相就火了。 DeepSeek-V2性能达GPT-4级别,但开源、可免费商用、API价格仅为GPT-4-Turb...
阅读原文

阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024

阿里云用创新调优方法节省通信开销。 2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AI Infra专场上,阿里云高级技术专家、阿里云异构计...
阅读原文

老黄将世界上第一台英伟达H200亲手交付给OpenAI

夕小瑶科技说 分享作者 | Zicy就在昨天,英伟达CEO黄仁勋亲自将第一台英伟达DGX H200交付给OpenAI位于旧金山的总部,预示着两大科技巨头未来的合作可能会更加...
阅读原文

24GB单卡全量微调Llama 3-8B,仅需添加一行代码

自ChatGPT问世以来,大型语言模型在各个领域引起了广泛兴趣,并催生了基于语言模型的应用,包括但不限于自动文本生成、信息检索、智能助理、聊天机器人以及智...
阅读原文

从啥也不会到DeepSpeed————一篇大模型分布式训练的学习过程总结

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,爱诗科技创始人王长虎,启明创投合伙人周志峰,Open-Sora开发团队潞晨科技创始人尤洋,「...
阅读原文

CES 2024 今日开展!英伟达与 AMD 各放大招,推出新版游戏显卡!

‍夕小瑶科技说 原创作者 | 小戏、王二狗CES 2024 (美国拉斯维加斯消费电子展) 今日开展! 作为世界范围内规模最大、水平最高以及影响力最广的消费类电子产...
阅读原文
12