标签:序列

李航:关于大模型的思考及研究热点

来源:图灵人工智能本文阐述李航老师对 LLM 的一些看法,主要观点如下:ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。LLM 融合了实现人工智能...
阅读原文

基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计

将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | 紫罗基因编辑是一种新兴的、比较精确的能对生物体基因组特定目标基因进行修饰的一种基因...
阅读原文

比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了

机器之心报道编辑:杜伟、泽南本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率...
阅读原文

Nature | 30多年前的断言被打破了?大模型具备了人类水平的系统泛化能力

机器之心报道机器之心编辑部我们知道,人类具有「举一反三」的能力,即学习一个新概念后立即就能用它来理解相关用法。例如,当小朋友知道如何「跳」,他们就...
阅读原文

Transformer王者归来!无需修改任何模块,时序预测全面领先

新智元报道编辑:好困【新智元导读】最近,来自清华大学和蚂蚁集团的研究人员重新审视Transformer结构在时序分析中的应用,提出一个全新的反转视角——无需修改...
阅读原文

LLM 的推理优化技术纵览

作者简介作者:紫气东来原文:https://zhuanlan.zhihu.com/p/642412124转载者:杨夕【LLMs九层妖塔】: https://github.com/km1994/LLMsNineStoryDemonTower推...
阅读原文

字节跳动李航:对语言大模型的若干观察和思考

机器之心专栏作者:ByteDance Research负责人李航本文阐述笔者对 LLM 的一些看法,主要观点如下:ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明...
阅读原文

别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升

机器之心报道机器之心编辑部处理小说、法律文件等长文本是大模型的一个重要应用方向,但也面临速度上的挑战。FlashAttention 作者 Tri Dao 等人提出的「Flash...
阅读原文

用暂停token重新训练大模型,AI学会三思而后行

梦晨 发自 凹非寺量子位 | 公众号 QbitAI让ChatGPT给出答案之前多想想步骤,就能提高准确率。那么能不能省去提示词,直接把这种能力内化在大模型里呢?CMU与...
阅读原文

​将专家知识与深度学习结合,清华团队开发DeepSEED进行高效启动子设计

将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | 萝卜皮设计具有所需特性的启动子在合成生物学中至关重要。人类专家擅长识别小样本中的强...
阅读原文

计算力学:量化涌现的又一条路径

导语因果涌现一直关注的一个核心问题,是量化复杂系统的涌现现象。从生命游戏的斑图,到大脑产生意识,我们希望不只是停留在定性的讨论上,而是能够定量刻画...
阅读原文

基于牛顿求根法,新算法实现并行训练和评估RNN,带来超10倍增速

机器之心报道编辑:Panda W人们普遍认为 RNN 是无法并行化的,因为其本质上的序列特性:其状态依赖于前一状态。这使得人们难以用长序列来训练 RNN。近日,一...
阅读原文

利用进化扩散进行蛋白生成,微软开源新型蛋白质生成AI框架EvoDiff

将 ScienceAI设为星标第一时间掌握新鲜的 AI for Science 资讯编辑| 紫罗进化产生了多种功能蛋白,可以精确调节细胞过程。近年来出现了深度生成模型,旨在从...
阅读原文

顶尖科学家如何玩转AI?DeepSpeed4Science:利用先进的AI系统优化技术实现科学发现

新智元报道编辑:LRS 好困【新智元导读】AI助力科学发现,DeepSpeed4Science计划引领新时代技术突破!在接下来的十年中,深度学习可能会彻底改变自然科学,增...
阅读原文

LLM吞吐量提高2-4倍,模型越大效果越好!UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

新智元报道编辑:LRS【新智元导读】吞吐量上不去有可能是内存背锅!无需修改模型架构,减少内存浪费就能提高吞吐量!‍虽然大型语言模型(LLM)的性能表现足够...
阅读原文
1891011