矩阵 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

9个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

1年前 (2024)

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

12个月前

50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了 | NeurIPS 2024 Oral

DuQuant团队投稿量子位 | 公众号 QbitAI消除激活值(outliers)，大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 20...

阅读原文

AIGC动态

12个月前

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

机器之心发布机器之心编辑部字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局...

阅读原文

AIGC动态

12个月前

清华开源混合精度推理系统MixQ，实现大模型近无损量化并提升推理吞吐

PACMAN实验室投稿量子位 | 公众号 QbitAI一键部署LLM混合精度推理，端到端吞吐比AWQ最大提升6倍！清华大学计算机系PACMAN实验室发布开源混合精度推理系统——M...

阅读原文

AIGC动态

1年前 (2024)

低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

Fira团队投稿量子位 | 公众号 QbitAI内存占用小，训练表现也要好……大模型训练成功实现二者兼得。来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩...

阅读原文

AIGC动态

1年前 (2024)

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

新智元报道编辑：桃子 LRS 【新智元导读】LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能...

阅读原文

AIGC动态

1年前 (2024)

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

允中发自凹非寺量子位 | 公众号 QbitAIFP8通过其独特的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练...

阅读原文

AIGC动态

1年前 (2024)

Sigmoid注意力一样强，苹果开始重新审视注意力机制

机器之心报道机器之心编辑部注意力是 Transformer 架构的关键部分，负责将每个序列元素转换为值的加权和。将查询与所有键进行点积，然后通过 softmax 函数归...

阅读原文

AIGC动态

1年前 (2024)

昂贵LLM的救星？Nature新研究提出新型忆阻器，比Haswell CPU高效460倍

机器之心报道编辑：Panda前些天，OpenAI 发布了 ο1 系列模型，它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的使用成本...

阅读原文

AIGC动态

1年前 (2024)

比LoRA更高效！上交大&哈佛推出新微调框架，瞄准特定任务方向

DV lab 投稿量子位 | 公众号 QbitAI比LoRA更高效的模型微调方法来了—— 以常识推理为例，在参数量减少8~16倍的情况下，两种方法能达到相同效果。新方法名叫Lo...

阅读原文

AIGC动态

1年前 (2024)

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

新智元报道编辑：乔杨 Frey 【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA...

阅读原文

AIGC动态

1年前 (2024)

用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的这个视频又火了

机器之心报道编辑：Panda W、陈陈本文根据视频整理而来，有听错或理解不当之处欢迎在评论区指出。向大模型输入「Michael Jordan plays the sport of _____（...

阅读原文

AIGC动态

1年前 (2024)

多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

明敏发自凹非寺量子位 | 公众号 QbitAIAttention is all you need. 至少在矩阵这儿是。 Mamba架构最新进展：仅需1%计算量，新模型性能达SOTA。能做到这一...

阅读原文

AIGC动态

1年前 (2024)

标签：矩阵