标签:矩阵
不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了
选自 Sebastian Raschka 博客机器之心编译编辑:佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验,值得一读。增加数据量和模型的参数量是公认的提...
矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见
新智元报道编辑:桃子 好困【新智元导读】Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世...
清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!
夕小瑶科技说 原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型(LLM)的研究,都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...
PyTorch团队重写「分割一切」模型,比原始实现快8倍
机器之心报道编辑:陈萍我们该如何优化 Meta 的「分割一切」模型,PyTorch 团队撰写的这篇博客由浅入深的帮你解答。从年初到现在,生成式 AI 发展迅猛。但很...
全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%
机器之心报道编辑:大盘鸡本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理...
GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录
机器之心报道机器之心编辑部想用大模型赚钱?这个实力强劲的新面孔决定先把推理成本打下来。大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参...
比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
机器之心报道编辑:杜伟、泽南本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率...
OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键
机器之心报道选自 YouTube编辑:Panda从涌现和扩展律到指令微调和 RLHF,OpenAI 科学家带你进入 LLM的世界。近日,OpenAI 研究科学家 Hyung Won Chung 在首尔...
基于牛顿求根法,新算法实现并行训练和评估RNN,带来超10倍增速
机器之心报道编辑:Panda W人们普遍认为 RNN 是无法并行化的,因为其本质上的序列特性:其状态依赖于前一状态。这使得人们难以用长序列来训练 RNN。近日,一...
以3D视角洞悉矩阵乘法,这就是AI思考的样子
选自PyTorch机器之心编译如果能以 3D 方式展示矩阵乘法的执行过程,当年学习矩阵乘法时也就不会那么吃力了。现如今,矩阵乘法已经成为机器学习模型的构建模块...
矩阵成真!Pytorch最新工具mm,3D可视化矩阵乘法、Transformer注意力
新智元报道编辑:桃子【新智元导读】Pytorch团队推出的最新3D可视化最新工具mm,能够将矩阵乘法模拟世界还原。矩阵中的模拟世界,真的来了。矩阵乘法(matmul...
“点两下”就能开发一个AI应用!百度砸亿元基金、千万算力要搞插件生态
金磊 发自 武汉量子位 | 公众号 QbitAI这年头,要想开发一个AI应用,怎么搞?只需要简单的“点击”动作就可以了!例如你想开发一个AI作画的App,只需要先点击与...
10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源
衡宇 发自 凹非寺量子位 | 公众号 QbitAI一家今年5月份成立在深圳的公司,团队至今不到10人。他们要做的却不是小事:挑战AGI。底气在哪?一看过往履历,二看...
对话共生矩阵张林:大模型商业化要「两条腿」走路,开源落地优势不大
信息大爆发时代,大模型是目前最好的压缩机。作者 | 黄楠编辑 | 陈彩娴纵观人类信息时代发展的三个阶段,可以以信息收集、信息传播和信息压缩来划分,三者分...
官方透露的我事科研成果中,有哪些机器人应用?
机器人大讲堂 . 机器人大讲堂是立德共创服务平台旗下引领行业发展的新媒体平台,已举办多种形式系列活动近百场,行业媒体矩阵垂直粉丝30万余人;立德研究院承...