标签：矩阵

不是大模型全局微调不起，只是LoRA更有性价比，教程已经准备好了

选自 Sebastian Raschka 博客机器之心编译编辑：佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验，值得一读。增加数据量和模型的参数量是公认的提...

阅读原文

AIGC动态

2年前 (2023)

矩阵模拟！Transformer大模型3D可视化，GPT-3、Nano-GPT每一层清晰可见

新智元报道编辑：桃子好困【新智元导读】Transformer大模型工作原理究竟是什么样的？一位软件工程师打开了大模型的矩阵世界。黑客帝国中，「矩阵模拟」的世...

阅读原文

AIGC动态

2年前 (2023)

清华提出 SoRA，参数量只有 LoRA 的 70%，表现更好！

夕小瑶科技说原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型（LLM）的研究，都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...

阅读原文

AIGC动态

2年前 (2023)

PyTorch团队重写「分割一切」模型，比原始实现快8倍

机器之心报道编辑：陈萍我们该如何优化 Meta 的「分割一切」模型，PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在，生成式 AI 发展迅猛。但很...

阅读原文

AIGC动态

2年前 (2023)

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

机器之心报道编辑：大盘鸡本文介绍了一项近似注意力机制新研究，耶鲁大学、谷歌研究院等机构提出了 HyperAttention，使 ChatGLM2 在 32k 上下文长度上的推理...

阅读原文

AIGC动态

2年前 (2023)

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

机器之心报道机器之心编辑部想用大模型赚钱？这个实力强劲的新面孔决定先把推理成本打下来。大模型业务到底多烧钱？前段时间，华尔街日报的一则报道给出了参...

阅读原文

AIGC动态

2年前 (2023)

比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了

机器之心报道编辑：杜伟、泽南本文探索了 Monarch Mixer (M2) ，这是一种在序列长度和模型维度上都是次二次的新架构，并且在现代加速器上具有很高的硬件效率...

阅读原文

AIGC动态

2年前 (2023)

OpenAI科学家最新大语言模型演讲火了，洞见LLM成功的关键

机器之心报道选自 YouTube编辑：Panda从涌现和扩展律到指令微调和 RLHF，OpenAI 科学家带你进入 LLM的世界。近日，OpenAI 研究科学家 Hyung Won Chung 在首尔...

阅读原文

AIGC动态

2年前 (2023)

基于牛顿求根法，新算法实现并行训练和评估RNN，带来超10倍增速

机器之心报道编辑：Panda W人们普遍认为 RNN 是无法并行化的，因为其本质上的序列特性：其状态依赖于前一状态。这使得人们难以用长序列来训练 RNN。近日，一...

阅读原文

AIGC动态

2年前 (2023)

以3D视角洞悉矩阵乘法，这就是AI思考的样子

选自PyTorch机器之心编译如果能以 3D 方式展示矩阵乘法的执行过程，当年学习矩阵乘法时也就不会那么吃力了。现如今，矩阵乘法已经成为机器学习模型的构建模块...

阅读原文

AIGC动态

2年前 (2023)

矩阵成真！Pytorch最新工具mm，3D可视化矩阵乘法、Transformer注意力

新智元报道编辑：桃子【新智元导读】Pytorch团队推出的最新3D可视化最新工具mm，能够将矩阵乘法模拟世界还原。矩阵中的模拟世界，真的来了。矩阵乘法（matmul...

阅读原文

AIGC动态

2年前 (2023)

“点两下”就能开发一个AI应用！百度砸亿元基金、千万算力要搞插件生态

金磊发自武汉量子位 | 公众号 QbitAI这年头，要想开发一个AI应用，怎么搞？只需要简单的“点击”动作就可以了！例如你想开发一个AI作画的App，只需要先点击与...

阅读原文

AIGC动态

2年前 (2023)

10人俩月搞出大模型！一年16篇顶会论文加持：市面上做得好的都没有开源

衡宇发自凹非寺量子位 | 公众号 QbitAI一家今年5月份成立在深圳的公司，团队至今不到10人。他们要做的却不是小事：挑战AGI。底气在哪？一看过往履历，二看...

阅读原文

AIGC动态

2年前 (2023)

对话共生矩阵张林：大模型商业化要「两条腿」走路，开源落地优势不大

信息大爆发时代，大模型是目前最好的压缩机。作者 | 黄楠编辑 | 陈彩娴纵观人类信息时代发展的三个阶段，可以以信息收集、信息传播和信息压缩来划分，三者分...

阅读原文

AIGC动态

2年前 (2023)

官方透露的我事科研成果中，有哪些机器人应用？

机器人大讲堂 . 机器人大讲堂是立德共创服务平台旗下引领行业发展的新媒体平台，已举办多种形式系列活动近百场，行业媒体矩阵垂直粉丝30万余人；立德研究院承...

阅读原文

AIGC动态

2年前 (2023)

1…3 45