标签:参数
KAN结合Transformer,真有团队搞出了解决扩展缺陷的KAT
机器之心报道 编辑:小舟、陈陈Transformer 是现代深度学习的基石。传统上,Transformer 依赖多层感知器 (MLP) 层来混合通道之间的信息。 前段时间,来自 MIT...
TensorRT-LLM保姆级教程(一)-快速入门
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现...
如何估计LLM推理和训练所需的GPU内存?
导读文章转载自知乎,作者为孙鹏飞,本文整理了一份训练或推理需要显存的计算方式。 原文地址:https://zhuanlan.zhihu.com/p/716317173 本文只做学术/技术分...
3天把Llama训成Mamba,性能不降,推理更快!
新智元报道编辑:alan 【新智元导读】近日,Mamba方面又搞出了有意思的研究:来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计...
LeCun转帖,AI精确计算宇宙「设置」,登Nature子刊
来源:ScienceAI 编辑:白菜叶 让「AI 告诉你宇宙中有什么?」 Meta 首席人工智能科学家、图灵奖得主 Yann LeCun 在 X 上转发了纽约大学物理系教授 Shirley H...
用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了
机器之心报道 编辑:Panda W、陈陈本文根据视频整理而来,有听错或理解不当之处欢迎在评论区指出。向大模型输入「Michael Jordan plays the sport of _____(...
视频生成控制提升几十倍,新一代轻量级ControlNeXt火了,贾佳亚团队正挑战Scaling Law
机器之心原创 编辑:杜伟最近,又一款国产 AI 神器吸引了众网友和圈内研究人员的关注!它就是全新的图像和视频生成控制工具 —— ControlNeXt,由思谋科技创始...
模型推理速度狂飙 20 倍,又有一家公司想赶超英伟达
曾造出世界最大芯片公司 Cerebras,发布了全球最快的 AI 推理架构——Cerebras Inference。 运行 Llama3.1 8B 时,它能以 1800 token/s 的速率吐出文字。 自推...
幻方AI ESFT:针对 MoE 的高效微调方案,媲美全参微调
生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1
新智元报道编辑:耳朵 好困 【新智元导读】微软Phi 3.5系列上新了!mini模型小而更美,MoE模型首次亮相,vision模型专注多模态。就在今天,微软「小语言模型...
谢谢微软,又又又Open了!一口气发布3款Phi-3.5新模型,领先Llama3.1和谷歌同级模型
夕小瑶科技说 原创作者 | 付奶茶家人们!微软又用爱发电了!一觉醒来,微软发布了最新的小模型三兄弟: Phi-3.5-MoE-instruct Phi-3.5-mini-instruct Phi-3.5...
蜘蛛侠妖娆起舞,下一代ControlNet来了!贾佳亚团队推出,即插即用,还能控制视频生成
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只用不到10%的训练参数,就能实现ControlNet一样的可控生成! 而且SDXL、SD1.5等Stable Diffusion家族的常见模型都...
在线教程丨超大模型部署无压力!一键运行 Llama 3.1 405B 和 Mistral Large 2
作者:李宝珠 编辑:xixi、李宝珠 HyperAI超神经为大家上线了 Llama 3.1 405B 和 Mistral Large 2407 的一键部署教程,无需输入任何命令,只需点击「克隆」即...
深度解码:AI 大模型的繁荣与困境 | Q福利
文末有惊喜福利哦~当前,人们正身处于一个日新月异的数字化时代,其中,人工智能技术的发展速度和规模令人惊叹,已然成为驱动技术进步的一股不可忽视的力量。...
DeepMind研究成本大起底,一篇ICML论文烧掉1290万美元
新智元报道编辑:乔杨 【新智元导读】DeepMind最近被ICML 2024接收的一篇论文,完完全全暴露了他们背靠谷歌的「豪横」。一篇文章预估了这项研究所需的算力和...