标签：高效

今日arXiv最热大模型论文：13位作者，200篇文献，腾讯最新综述高效多模态大模型：性能要强，规模要小

夕小瑶科技说原创作者 | 谢年年在过去一年里，多模态大语言模型（MLLMs）在视觉问答、视觉理解和推理等任务中展现了卓越性能。OpenAI的GPT-4V和Google的Gemi...

阅读原文

AIGC动态

2年前 (2024)

高效训练超越LoRA，北航发布MoRA

夕小瑶科技说原创作者 | Richard什么！LoRA我都没有学懂，又出现了MoRA？？？ LoRA作为当下最火热的大语言模型参数高效微调技术，正在以前所未有的速度迭代...

阅读原文

AIGC动态

2年前 (2024)

MoE 高效训练的 A/B 面：与魔鬼做交易，用「显存」换「性能」

在高效训练与高显存占用之间横跳的 MoE，更像是一门妥协的艺术。作者｜房晓楠编辑｜陈彩娴 MoE 会成为未来大模型训练的新方向吗？这是人们发现 MoE 架构可...

阅读原文

AIGC动态

2年前 (2024)

图灵奖得主Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

来源：机器之心机器之心编辑部既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？序列建模的进展具有极大的...

阅读原文

AIGC动态

2年前 (2024)

热帖：大语言模型自荐能够替代的20种人类工作！快来看你是否需要转行！

夕小瑶科技说原创作者 | 付奶茶最近推特上有一个例子引起了广泛的讨论，事情的起因是这样的：网友让 GPT-4o 预测一下自己未来将会替代人类哪些工作？这听起...

阅读原文

AIGC动态

2年前 (2024)

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

机器之心报道机器之心编辑部既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？序列建模的进展具有极大的影...

阅读原文

AIGC动态

2年前 (2024)

爆打多模态王者 GPT-4V、Gemini Pro！这个小小端侧模型杀疯了！

夕小瑶科技说分享多模态王者 GPT-4V、Gemini Pro ，竟然被一个端侧模型打爆了！而且这个模型还凭强劲实力拿下了全球最强端侧多模态模型王座！有图有真相。...

阅读原文

AIGC动态

2年前 (2024)

国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro！稳坐端侧多模态铁王座

新智元报道编辑：桃子好困【新智元导读】杀疯了！一夜之间，全球最强端侧多模态模型再次刷新，仅用8B参数，击败了多模态巨无霸Gemini Pro、GPT-4V。而且，...

阅读原文

AIGC动态

2年前 (2024)

国产版Sora到来！视频大模型更上一层楼 | 大模型一周大事

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面...

阅读原文

AIGC动态

2年前 (2024)

比Llama 3 推理更强的开源大模型出现了! Leetcode击败80%人类

夕小瑶科技说分享Llama3 最近实在太火了！它的性能匹敌 Gemini 1.5 Pro，接近GPT-4，赢得了“最强开源大模型”的称号。国内外开源社区都为之感到振奋，果然...

阅读原文

AIGC动态

2年前 (2024)

让大模型不再「巨无霸」，这是一份最新的大模型参数高效微调综述

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

机器之心报道编辑：小舟、崔亚鹂Snowflake 加入 LLM 混战。Snowflake 发布高「企业智能」模型 Arctic，专注于企业内部应用。刚刚，数据管理和仓库提供商 Sn...

阅读原文

AIGC动态

2年前 (2024)

Mamba架构第一次做大！混合Transformer，打败Transformer

丰色发自凹非寺量子位 | 公众号 QbitAI精彩精彩，第一个把爆火Mamba架构真正扩展到足够大的工作来了。 520亿参数，还是Mamba+Transformer混合架构。它的名...

阅读原文

AIGC动态

2年前 (2024)

博士/访问学生/学者申请｜新加坡管理大学（SMU）周攀助理教授：机器学习、计算机视觉、优化算法方向

新智元报道编辑：LRS 【新智元导读】周攀助理教授招收学生和学者，研究方向包括神经网络结构设计、学习框架（自监督学习、生成学习以及元语境学习）、网络参...

阅读原文

AIGC动态

2年前 (2024)

DeepMind CEO：LLM+树搜索就是AGI技术线路，AI科研依赖工程能力，闭源模型就是比开源安全

新智元报道编辑：润【新智元导读】最近谷歌DeepMind的CEO Hassabis接受了多个播客主播的专访，向大众透露很多谷歌最近发布模型的内幕，以及他理解的如何通向...

阅读原文

AIGC动态

2年前 (2024)

1 2 345 6