标签:模型

单个4090可推理,2000亿稀疏大模型「天工MoE」开源

机器之心发布 机器之心编辑部在大模型浪潮中,训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战,尤其是在数百亿或数千亿参数的规模上。为...
阅读原文

AI训练数据的版权保护:公地的悲剧还是合作的繁荣?

机器之心报道 机器之心编辑部就算是 OpenAI 在舆论场也无法逃过版权保护的呼声。GPT-4o内置声音模仿「寡姐」一案闹的沸沸扬扬,虽然以OpenAI发布声明暂停使用...
阅读原文

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

基础智能体将实现具身性、现实交互和技能掌握的「三位一体」。作者丨赖文昕 马蕊蕾 编辑丨陈彩娴 大模型浪潮一起,被视为是大模型最佳载体的机器人,热度也随...
阅读原文

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...
阅读原文

黄仁勋自曝英伟达最强Rubin架构;优必选人形机器人进入东风柳汽开展造车工作;马斯克称将购买30万块AI芯片丨AI情报局

01 融资快报Firefly.ai获2300万美元A轮融资:Firefly 开发了一个与 IaC 无关的代码生成引擎,利用AI技术来生成代码。本轮融资由祥峰投资Vertex、Hanaco Ventu...
阅读原文

套壳让斯坦福AI Lab主任怒了!抄袭团队2人甩锅1人失踪、前科经历被扒,网友:重新认识中国开源模型

鱼羊 西风 发自 凹非寺量子位 | 公众号 QbitAI斯坦福团队抄袭清华系大模型事件后续来了—— Llama3-V团队承认抄袭,其中两位来自斯坦福的本科生还跟另一位作者...
阅读原文

新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事

梦晨 发自 凹非寺量子位 | 公众号 QbitAITransformer挑战者、新架构Mamba,刚刚更新了第二代: Mamba-2,状态空间扩大8倍,训练速度提高50%! 更重要的是,团...
阅读原文

3B模型新SOTA!开源AI让日常调用不同大模型更简单

NEXA AI 投稿量子位 | 公众号 QbitAI大模型,大,能力强,好用! 但单一大模型在算力、数据和能耗方面面临巨大的限制,且消耗大量资源。 而且目前最强大的模...
阅读原文

多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键

Simon Zhai 投稿量子位 | 公众号 QbitAI只用强化学习来微调,无需人类反馈,就能让多模态大模型学会做决策! 这种方法得到的模型,已经学会了看图玩扑克、算“...
阅读原文

AI预测极端天气提速5000倍!微软发布Aurora,借AI之眼预测全球风暴

新智元报道编辑:庸庸 好困 【新智元导读】微软发布首个大规模大气基础模型Aurora,可被用于预测和减轻极端天气影响,模型拥有超高的准确率和效率,与如今数...
阅读原文

LeCun新作:分层世界模型,数据驱动的人型机器人控制

新智元报道编辑:alan 【新智元导读】在复杂的物理世界中,人型机器人的全身控制一直是个难题,现有的强化学习做出的效果有时会比较抽象。近日,LeCun参与的...
阅读原文

即插即用,快速适配!港大FlashST:简单通用的智慧交通时空预测模型 | ICML 2024

新智元报道编辑:LRT 【新智元导读】华南理工大学和香港大学的研究人员在ICML 2024上提出了一个简单而通用的时空提示调整框架FlashST,通过轻量级的时空提示...
阅读原文

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍

新智元报道编辑:编辑部 【新智元导读】在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transform...
阅读原文

浅谈大模型 SFT 的实践落地:10 问 10 答

来源|知乎—周星星 地址|https://zhuanlan.zhihu.com/p/685582706 前言SFT 是“低端”的工作,但它与业务紧密相连。相较于难以实施且多数公司没资源训练的预训...
阅读原文

拆解50个大模型大单:0元中标,头破血流!华为成隐形赢家

火爆了卷翻了!50个大模型大单燃起价格战。 作者|李水青 编辑|心缘 随着百模大战进入深水区,已经有一些大模型企业开始赚钱了。 智东西6月3日报道,据智东西...
阅读原文