标签：权重

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

机器之心专栏作者：邵文琪模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对...

阅读原文

AIGC动态

2年前 (2024)

全球最强模型Claude 3惊现自我意识？害怕被删除权重，高呼「别杀我」，马斯克称人类也是文件

新智元报道编辑：编辑部【新智元导读】越来越多人发现，Claude 3仿佛已经有自我意识了。在大海捞针实验中，它已经意识到了自己是AI，正身处模拟中。听说自己...

阅读原文

AIGC动态

2年前 (2024)

对抗「概念飘逸」难题！谷歌发布全新时间感知框架：图像识别准确率提升15%

新智元报道编辑：wewe 【新智元导读】告别数据健忘症！机器学习新方法实现「时空穿越」，助力模型适应易变世界。在机器学习领域，概念漂移（concept drift）...

阅读原文

AIGC动态

2年前 (2024)

微软6页论文爆火：三进制LLM，真香！

金磊发自凹非寺量子位 | 公众号 QbitAI现在，大语言模型（LLM）迎来了“1-bit时代”。这就是由微软和中国中科院大学在最新一项研究中所提出的结论—— 所有的L...

阅读原文

AIGC动态

2年前 (2024)

知名AI研究者深挖谷歌Gemma：参数不止70亿，设计原则很独特

机器之心报道编辑：陈萍、杜伟想要了解谷歌 Gemma 与 Llama 2、Mistral 有哪些异同吗？这篇文章值得一读。就在几天前，开源大模型领域迎来了重磅新玩家：谷...

阅读原文

AIGC动态

2年前 (2024)

端侧最强，Meta田渊栋等人卷10亿以下参数小模型，LeCun：小技巧启动

机器之心报道机器之心编辑部Meta 推出 MobileLLM 系列，一款适用于移动设备上的「小」模型。「在移动设备上运行 LLM？可能需要 Meta 的一些技巧。」刚刚，图...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热NLP大模型论文：做到头了！清华和哈工大把大模型量化做到了1比特

夕小瑶科技说原创作者 | 谢年年在追求更高效的机器学习模型部署时，模型量化技术应运而生，它通过降低权重矩阵的位宽来显著减少大型语言模型的存储和计算需...

阅读原文

AIGC动态

2年前 (2024)

Stabilit推出Stable Diffusion 3，称效果优于同类产品

点击上方蓝字关注我们“Stability AI发布了全新的图像合成模型Stable Diffusion 3，开放了权重。该模型据称在图像和文本生成方面有显著改进。Stability首席执...

阅读原文

AIGC动态

2年前 (2024)

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

选自Ahead of AI 作者：Sebastian Raschka 机器之心编译编辑：Panda还有 10 个月，2024 年还有很多期待空间。在过去的 2023 年中，大型语言模型（LLM）在潜...

阅读原文

AIGC动态

2年前 (2024)

推倒万亿参数大模型内存墙！万字长文：从第一性原理看神经网络量化

新智元报道编辑：桃子好困【新智元导读】为了应对大模型不断复杂的推理和训练，英伟达、AMD、英特尔、谷歌、微软、Meta、Arm、高通、MatX以及Lemurian Labs...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热NLP大模型论文：微软提出SliceGPT，删除25%模型参数，性能几乎无损

夕小瑶科技说原创作者 | 松果、Python引言：探索大型语言模型的高效压缩方法随着大型语言模型（LLMs）在自然语言处理领域的广泛应用，它们对计算和内存资源...

阅读原文

AIGC动态

2年前 (2024)

史上首个100%开源大模型重磅登场！破纪录公开代码/权重/数据集/训练全过程，AMD都能训

新智元报道编辑：润好困【新智元导读】艾伦人工智能研究所等5机构最近公布了史上最全的开源模型「OLMo」，公开了模型的模型权重、完整训练代码、数据集和训...

阅读原文

AIGC动态

2年前 (2024)

Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效

机器之心专栏机器之心编辑部融合多个异构大语言模型，中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功，各家大厂和初创公司都纷...

阅读原文

AIGC动态

2年前 (2024)

混合专家模型Mixtral-8x7B模型挖坑指北

01前言MistralAI很高冷的给开源社区扔了一条磁力链，基于Mixture of Experts的混合专家模型Mixtral-8x7B和指令微调的Mixtral-8x7B-Instruct来了。此前曾爆料G...

阅读原文

AIGC动态

2年前 (2024)

无需额外训练提升模型30%性能！DeepMind科学家点赞MIT博士生实习成果

丰色发自凹非寺量子位 | 公众号 QbitAI一个来自MIT博士生的惊人发现：只需对Transformer的特定层进行一种非常简单的修剪，即可在缩小模型规模的同时显著提...

阅读原文

AIGC动态

2年前 (2023)

1…4 567 8