标签:模型

全球首个芯片设计开源大模型诞生!5年重塑5000亿美元半导体行业

新智元报道编辑:编辑部 【新智元导读】全球首个芯片设计开源大模型SemiKong正式发布,基于Llama 3微调而来,性能超越通用大模型。未来5年,SemiKong或将重塑...
阅读原文

语义熵识破LLM幻觉!牛津大学新研究登Nature

新智元报道编辑:alan 【新智元导读】近日,来自牛津大学的研究人员推出了利用语义熵来检测LLM幻觉的新方法。作为克服混淆的策略,语义熵建立在不确定性估计...
阅读原文

LeCun新作:神经网络在实践中的灵活性到底有多大?

新智元报道编辑:alan 【新智元导读】神经网络拟合数据的能力受哪些因素影响?CNN一定比Transformer差吗?ReLU和SGD还有哪些神奇的作用?近日,LeCun参与的一...
阅读原文

单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE

机器之心报道 编辑:泽南、杜伟释放进一步扩展 Transformer 的潜力,同时还可以保持计算效率。标准 Transformer 架构中的前馈(FFW)层会随着隐藏层宽度的增...
阅读原文

深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

国产大模型第一梯队玩家,为什么pick了CPU?

金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI一天,人间一年。 现在不论是大模型本身,亦或是AI应用的更新速度简直令人直呼跟不上—— Sora、Suno、Udio、Lu...
阅读原文

ControlNet作者新项目爆火:仅一张图生成25秒绘画全过程!不到一天GitHub揽星600+

西风 发自 凹非寺量子位 | 公众号 QbitAIControlNet作者张吕敏(Lvmin Zhang)又又又发新作了! 输入任意一张图,分分钟就能“拆解”成一个25秒的图像绘制过程...
阅读原文

Claude编程支持一键共享,第一批网友已经开始晒作品了

克雷西 发自 凹非寺量子位 | 公众号 QbitAIClaude 3.5上新的“工坊模式”(Artifacts)再次更新,写完的网页应用支持一键分享了! 不用自建服务器,不用部署后...
阅读原文

DeepMind新方法:训练时间减少13倍,算力降低90%

一水 发自 凹非寺量子位 | 公众号 QbitAI大幅节省算力资源,又又又有新解了!! DeepMind团队提出了一种新的数据筛选方法JEST—— 将AI训练时间减少13倍,并将...
阅读原文

20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型

作者:田小幺 编辑:李宝珠,十九 上海交通大学洪亮团队联合上海人工智能实验室青年研究员谈攀,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,能在只...
阅读原文

中国大模型数量占全球超1/3;AI模型训练成本暴涨,2027年或达1000亿美元;Kimi发布官方浏览器插件丨AI情报局

01 融资快报Quantum Rise 获 1500 万美元种子资金:Quantum Rise 以所谓的“咨询 2.0”模式将 AI 部署到公司中,以自动化工作流程、提供路线图和量身定制的 AI ...
阅读原文

李彦宏:开源模型是智商税!傅盛:付费的闭源大模型才是!

夕小瑶科技说 原创作者 | 付奶茶 最近几天,圈里讨论最热闹的、打开手机社媒平台给我推荐最凶的,就是WAIC 2024了,恨不得全国大大小小的AI厂商都跑去参加了...
阅读原文

微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型

夕小瑶科技说 原创作者 | 谢年年 现在的大模型训练通常会包括两个阶段: 一是无监督的预训练,即通过因果语言建模预测下一个token生成的概率。该方法无需标注...
阅读原文

从 738 个失败的 AI 项目里,我们发现了 AI 创业从 0 到 1 的 3 个难点

去年我们发过一篇 2023 年创业失败的 AI 项目梳理,对「AI Graveyard(AI 坟墓)」上的项目进行了一次简单的梳理,今天这篇,是在熟悉网站上的 738 个关闭的 ...
阅读原文

评审了 29 个 AI 产品后,我发现了 SaaS+AI 的几种解法

近日,我有幸得到崔牛会邀请,作为评委参与了两场SaaS+AI大赛的初赛,共评审了29个AI产品。 在这篇文章中,我将分享:胜出案例的优秀之处、AI应用三种常见失...
阅读原文