标签:高效
今日arXiv最热大模型论文:13位作者,200篇文献,腾讯最新综述高效多模态大模型:性能要强,规模要小
夕小瑶科技说 原创作者 | 谢年年在过去一年里,多模态大语言模型(MLLMs)在视觉问答、视觉理解和推理等任务中展现了卓越性能。OpenAI的GPT-4V和Google的Gemi...
高效训练超越LoRA,北航发布MoRA
夕小瑶科技说 原创作者 | Richard什么!LoRA我都没有学懂,又出现了MoRA??? LoRA作为当下最火热的大语言模型参数高效微调技术,正在以前所未有的速度迭代...
MoE 高效训练的 A/B 面:与魔鬼做交易,用「显存」换「性能」
在高效训练与高显存占用之间横跳的 MoE,更像是一门妥协的艺术。作者|房晓楠 编辑|陈彩娴 MoE 会成为未来大模型训练的新方向吗? 这是人们发现 MoE 架构可...
图灵奖得主Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
来源:机器之心 机器之心编辑部既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?序列建模的进展具有极大的...
热帖:大语言模型自荐能够替代的20种人类工作!快来看你是否需要转行!
夕小瑶科技说 原创作者 | 付奶茶最近推特上有一个例子引起了广泛的讨论,事情的起因是这样的:网友让 GPT-4o 预测一下自己未来将会替代人类哪些工作? 这听起...
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
机器之心报道 机器之心编辑部既能像 Transformer 一样并行训练,推理时内存需求又不随 token 数线性递增,长上下文又有新思路了?序列建模的进展具有极大的影...
爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!
夕小瑶科技说 分享多模态王者 GPT-4V、Gemini Pro ,竟然被一个端侧模型打爆了!而且这个模型还凭强劲实力拿下了全球最强端侧多模态模型王座! 有图有真相。...
国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座
新智元报道编辑:桃子 好困 【新智元导读】杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,...
国产版Sora到来!视频大模型更上一层楼 | 大模型一周大事
大模型的快节奏发展,让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态,为广大读者提供全面...
比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类
夕小瑶科技说 分享Llama3 最近实在太火了! 它的性能匹敌 Gemini 1.5 Pro,接近GPT-4,赢得了“最强开源大模型”的称号。 国内外开源社区都为之感到振奋,果然...
让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
机器之心报道 编辑:小舟、崔亚鹂Snowflake 加入 LLM 混战。Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。 刚刚,数据管理和仓库提供商 Sn...
Mamba架构第一次做大!混合Transformer,打败Transformer
丰色 发自 凹非寺量子位 | 公众号 QbitAI精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数,还是Mamba+Transformer混合架构。 它的名...
博士/访问学生/学者申请|新加坡管理大学(SMU)周攀助理教授:机器学习、计算机视觉、优化算法方向
新智元报道编辑:LRS 【新智元导读】周攀助理教授招收学生和学者,研究方向包括神经网络结构设计、学习框架 (自监督学习、生成学习以及元语境学习)、网络参...
DeepMind CEO:LLM+树搜索就是AGI技术线路,AI科研依赖工程能力,闭源模型就是比开源安全
新智元报道编辑:润 【新智元导读】最近谷歌DeepMind的CEO Hassabis接受了多个播客主播的专访,向大众透露很多谷歌最近发布模型的内幕,以及他理解的如何通向...