标签:架构
黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
机器之心报道 编辑:杜伟、大盘鸡都 2024 年,还有人不了解 Transformer 工作原理吗?快来试一试这个交互式工具吧。2017 年,谷歌在论文《Attention is all y...
2.5天完成1年的MD计算?DeepMind团队基于欧几里得Transformer的新计算方法
将 ScienceAI设为星标 第一时间掌握 新鲜的 AI for Science 资讯编辑 | 萝卜皮 近年来,基于从头算参考计算的机器学习力场 (MLFF) 的开发取得了巨大进展。虽...
10.98 万元的吉利银河 E5,就是一辆「小极氪」
在刚刚过去的周末里,吉利搞了个大新闻:吉利银河 E5 上市,10.98 万元起。 要注意的是,这是算上了限时优惠的价格,只有在 10 月 1 日前下定的用户,才能获...
锋行致远孙唐:存算大模型加速系统
生成式AI时代,大模型及AIGC的快速发展推动着计算需求的高速增长。 从服务器到边缘,再到AI手机、AI PC、AIoT、智能汽车,各个领域的AI芯片玩家都面临着新的...
阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律
机器之心报道 编辑:陈陈、杜伟你规定路线,Tora 来生成相应轨迹的视频。目前,扩散模型能够生成多样化且高质量的图像或视频。此前,视频扩散模型采用 U-Net ...
DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元
新智元报道编辑:乔杨 【新智元导读】DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和...
合合信息研发总监常扬:大模型RAG技术架构与应用实践 | 公开课预告
随着大语言模型的兴起,其在处理自然语言任务上展现出了强大的能力,但也逐渐暴露出一些问题。大语言模型虽然能够生成连贯且富有逻辑的文本,但在某些情况下...
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
新智元报道编辑:乔杨 【新智元导读】最近,Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路,...
视频生成产品 PixVerse 版本大更新!支持一键生成5段、最长 40S 连续视频
今年6 月份起,视频生成赛道持续涌现新的产品,从可灵到 Luma、Runway Gen3,模型能力和产品化效果越来越卷。 7 月 24 日,爱诗科技正式发布视频生成产品 Pix...
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
新智元报道编辑:乔杨 【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B...
前谷歌科学家Yi Tay「LLM演义」系列博客第一弹:BERT为何匿迹江湖?
新智元报道编辑:庸庸 乔杨 【新智元导读】前谷歌科学家Yi Tay重磅推出「LLM时代的模型架构」系列博客,首篇博文的话题关于:基于encoder-only架构的BERT是如...
Mamba写代码真的超越Transformer!原始论文入选顶流新会议
西风 发自 凹非寺量子位 | 公众号 QbitAI“欧洲OpenAI”和“Transformer挑战者”强强联合了! Mistral AI刚刚推出了其第一个基于Mamba2架构的开源模型——Codestral...
原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳
新智元报道编辑:编辑部 【新智元导读】最近,7B小模型又成为了AI巨头们竞相追赶的潮流。继谷歌的Gemma2 7B后,Mistral今天又发布了两个7B模型,分别是针对ST...
Mistral AI两:7B数学推理专用、Mamba2架构代码大模型
机器之心报道 机器之心编辑部网友很好奇,Mathstral能不能搞定「9.11和9.9谁大」这一问题。昨天,AI圈竟然被「9.11和9.9谁大」这样简单的问题攻陷了,包括Ope...