标签:精度
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
30B!每秒100tokens!这是AMD对AI PC的“幻想时间”
夕小瑶科技说 原创作者 | 谷雨龙泽随着AI的高速发展,从去年开始,挂在服务器的云端AI模型已经不能满足技术发烧友的胃口了,AI PC应运而生。 AI PC就是内嵌个...
英伟达又赚到了!FlashAttention3来了:H100利用率飙升至75%
机器之心报道 编辑:陈陈、小舟740 TFLOPS!迄今最强 FlashAttention 来了。随着大型语言模型(LLM)加速落地,扩展模型上下文窗口变得越来越重要。然而,Tra...
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍
明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型训练推理神作,又更新了! 主流大模型都在用的FlashAttention,刚刚升级第三代。 时隔一年,FlashAtten...
CVPR 2024 Highlight | 北航等发布「时间特征维护」:无需训练,极致压缩加速Diffusion
新智元报道编辑:LRST 好困 【新智元导读】拯救4bit扩散模型精度,仅需时间特征维护——以超低精度量化技术重塑图像内容生成!近日,北航、莫纳什、UT Austin联...
Intel入局大模型,烧钱搜索130亿种网络结构,让LLaMa2瘦身30%
夕小瑶科技说 原创作者 | 任同学大语言模型在多个领域大放异彩,但它们的高内存和计算成本限制了广泛使用。神经架构搜索(NAS)能自动找到最优模型架构,减少...
清华“天眸芯”登Nature封面!全球首款类脑互补视觉芯片,施路平团队最新成果
西风 发自 凹非寺量子位 | 公众号 QbitAI清华类脑计算研究中心施路平团队新成果,登上最新一期Nature封面。 团队研发出世界首款类脑互补视觉芯片——“天眸芯”。...
字节开源大模型量化新思路,2-bit量化模型精度齐平fp16
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
所有生命分子一夜皆可AI预测!AlphaFold 3改变人类对生命的理解,全球科学家都能免费使用
梦晨 明敏 发自 凹非寺量子位 | 公众号 QbitAIAlphaFold 3再登Nature! 这次重磅升级,不再仅限于蛋白质结构预测——可以以前所未有的精度预测所有生命分子的结...
单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源
克雷西 发自 凹非寺量子位 | 公众号 QbitAIFP8和更低的浮点数量化精度,不再是H100的“专利”了! 老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官...
Nvidia B100/B200/GB200 关键技术解读
对GTC keynote中关于AI基础设施的关键信息整理如下,分三个部分: 芯片 服务器 Superpod 芯片 1. GPU芯片 晶体管数: B200 GPU的晶体管数量是现有H100的两倍...
GPT-4级模型Grok开源可商用!卷底层大模型的公司危了
夕小瑶科技说 原创作者 | 醒醒上周,马斯克宣布 xAI 将开源 Grok。 刚刚,马斯克终于兑现诺言,xAI 宣布开源了 Grok-1 的模型权重和网络架构。 Grok-1 是一个...
Hugging Face:2023开源LLM大爆发,数据竞赛已开启!
新智元报道编辑:alan 【新智元导读】2023年的LLM开源社区都发生了什么?来自Hugging Face的研究员带你回顾并重新认识开源LLM2023年的大语言模型(LLM),让...
深度网络数据编码新突破,上交大SPARK登上计算机体系结构顶会
机器之心专栏 机器之心编辑部随着深度神经网络(DNNs)模型在规模和复杂性上的迅速增长,传统的神经网络处理方法面临着严峻的挑战。现有的神经网络压缩技术在...
计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023
新智元报道编辑:LRS【新智元导读】相比全精度CNN,清华大学提出的二值化光谱重分布网络BiSRNet只需0.06%的存储空间和1%的计算代价,性能几乎持平。相比于常...