标签:架构
首款采用 AMD 技术的 AI PC 即将登场
联合变局 x86 进军 AI PC 时代五月,微软向全世界介绍了一个专为 AI 体验而设计的全新 Windows PC 品类:Windows 11 AI + PC,并将其描述为更快、更智能的 Wi...
神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同
新智元报道编辑:乔杨 【新智元导读】深度神经网络有多种规模和架构,大家普遍认为这会影响到模型学习到的抽象表示。然而,UCL两位学者发表在ICML 2024上第一...
Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解
新智元报道编辑:乔杨 【新智元导读】Mamba模型由于匹敌Transformer的巨大潜力,在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下,这两个架构...
H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍
明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型训练推理神作,又更新了! 主流大模型都在用的FlashAttention,刚刚升级第三代。 时隔一年,FlashAtten...
英伟达AMD差点合并,老黄提了个条件,结果黄了
西风 发自 凹非寺量子位 | 公众号 QbitAI在AI浪潮中赢麻了的英伟达,如今市值已达3.1万亿,远超另外两家芯片巨头AMD和英特尔。 但一则内幕爆料引起热议: 英...
100天后,阶跃星辰交出了第二份答卷
从「走路入场」到「跑步前进」,阶跃星辰要加速奔向AGI了。作者|房晓楠 编辑|陈彩娴 今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家...
Llama也能做图像生成!港大字节推出开源自回归文生图模型,在线体验已开放
LlamaGen团队 投稿量子位 | 公众号 QbitAI只需Image Tokenizer,Llama也能做图像生成了,而且效果超过了扩散模型。 来自港大和字节的研究人员,提出了基于自...
端侧模型打响突围战!VC 疯抢,又一创企“杀”出
6 月,三笔巨额融资掀开大模型战事新篇章。 前脚,加拿大 Cohere 以 50 亿美元估值揽获 4.5 亿美元融资,英伟达、思科助力;后脚,法国 Mistral AI 喜提 6 亿...
「地表最快」 AI 芯片发布,哈佛辍学的本科生挑战英伟达
Etched Sohu AI 芯片问世在谈到 AI、大模型、算力等关键词时,如果要提及硬件产品,很多人应该会不假思索的说出英伟达。 一位华尔街分析师曾如此评论到: 人...
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
新智元报道编辑:乔杨 好困 【新智元导读】DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GN...
3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D
机器之心发布 机器之心编辑部2024 年 5 月,DreamTech 官宣了其高质量 3D 生成大模型 Direct3D,并公开了相关学术论文 Direct3D: Scalable Image-to-3D Gener...
AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
机器之心报道 编辑:PandaAI 研究发展的主要推动力是什么?在最近的一次演讲中,OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。 近日,斯坦福大学《C...
万字长文!AI Agent架构概况:关于推理、规划和工具调用
直播预告 | 6月18日上午10点,「智猩猩AI新青年讲座」第240讲正式开讲,邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusi...
Latte一作马鑫:DiT架构在视频生成模型中的应用与扩展 | 讲座预告
「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。 AI新青年是加速人工...
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
机器之心报道 编辑:Panda用神经架构搜索给 LLM 瘦身,同等准确度可让 LLaMA2-7B 模型大小降 2 倍。大型语言模型(LLM)的一个主要特点是「大」,也因此其训...