标签:参数
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
机器之心专栏 机器之心编辑部对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每...
编程能力超GPT-4,羊驼代码版“超大杯”来了,小扎还亲自剧透Llama3
克雷西 发自 凹非寺量子位 | 公众号 QbitAI羊驼家族的“最强开源代码模型”,迎来了它的“超大杯”—— 就在今天凌晨,Meta宣布推出Code Llama的70B版本。 在HumanE...
Meta官方的Prompt工程指南:Llama 2这样用更高效
机器之心报道 编辑:小舟随着大型语言模型(LLM)技术日渐成熟,提示工程(Prompt Engineering)变得越来越重要。一些研究机构发布了 LLM 提示工程指南,包括...
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral
机器之心专栏 作者:新一代 Kaldi 团队近日,小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic...
大模型专家混合MoE模型详解
本文转载自公众号:青稞AI,原作者:Miller@知乎。Mixtral 8x7B 的推出(参见公告[1]和模型卡片[2]在开放 AI 领域引发了广泛关注,特别是对于专家混合(Mixtu...
大模型训练loss突刺原因和解决办法
直播预告 | 今晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到端自动...
被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署
选自 HuggingFace 博客 编译:赵阳本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技...
超过ConvNeXt,CSWin等!上海交大提出Transformer架构新SOTA:SeTformer!
直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
AI视频可控性高能进化!复刻《黑客帝国》经典镜头只需笔刷
西风 发自 凹非寺量子位 | 公众号 QbitAI5个笔刷,对着一张图一顿刷刷刷刷刷,原本静止的小鸟们就各自运动了起来: Gen-2“运动笔刷”(Motion Brush)官宣再进...
三个臭皮匠顶个诸葛亮?可能是真的,已证实混合多个小模型性能比肩GPT3.5
机器之心报道 编辑:rome对模型参数量的迷信、执念也许可以放下了,混合多个小模型也是未来构造对话型 AI 的一个光明的方向。 在对话型人工智能(AI)研究中...
独家|非 Transformer 开源大模型 RWKV 元始智能已完成种子轮融资
训练出千亿模型依然是 RWKV 当下最能证明自己的事情。作者丨张 进 编辑丨陈彩娴 AI科技评论独家获悉,开源LLM RWKV背后的元始智能,种子轮融资已于1月16日走...
Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑
新智元报道编辑:润 alan 【新智元导读】今天,Stability AI发布了Stable Code 3B,在图片生成之外的战场上,Stability也开始发力了今天,Stability AI发布了...
AI for Science 在线研讨会预告!直播讲解开源框架 NVIDIA Modulus 千倍加速参数化燃烧场仿真
随着 AI 的不断发展与成熟,科学家们开始借助 AI 来进行数据的分析和处理工作。凭借强大的学习和推理能力,AI 可以从大量数据中发现有用的信息和规律,将科学...
2024属于小模型时代?TinyLlama 等小模型爆火
直播预告 | 明晚(周三)7点,「多模态大模型线上闭门会」正式开讲!阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,携手刘兆洋、李彦玮、文束三位青年学者...