标签：参数

大模型也有小偷？为保护你的参数，上交大给大模型制作「人类可读指纹」

机器之心专栏机器之心编辑部将不同的基模型象征为不同品种的狗，其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费巨量的计算资源...

阅读原文

AIGC动态

2年前 (2024)

2B参数性能超Mistral-7B：面壁智能多模态端侧模型开源

机器之心报道编辑：泽南千元机也能本地运行。在大模型不断向着大体量方向前进的同时，最近一段时间，人们在优化和部署方面也取得了成果。 2 月 1 日，面壁智...

阅读原文

AIGC动态

2年前 (2024)

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

机器之心专栏机器之心编辑部对于大型视觉语言模型（LVLM）而言，扩展模型可以有效提高模型性能。然而，扩大参数规模会显著增加训练和推理成本，因为计算中每...

阅读原文

AIGC动态

2年前 (2024)

编程能力超GPT-4，羊驼代码版“超大杯”来了，小扎还亲自剧透Llama3

克雷西发自凹非寺量子位 | 公众号 QbitAI羊驼家族的“最强开源代码模型”，迎来了它的“超大杯”—— 就在今天凌晨，Meta宣布推出Code Llama的70B版本。在HumanE...

阅读原文

AIGC动态

2年前 (2024)

Meta官方的Prompt工程指南：Llama 2这样用更高效

机器之心报道编辑：小舟随着大型语言模型（LLM）技术日渐成熟，提示工程（Prompt Engineering）变得越来越重要。一些研究机构发布了 LLM 提示工程指南，包括...

阅读原文

AIGC动态

2年前 (2024)

小米新一代Kaldi团队论文解读：新型自动语音识别 (ASR) 模型Zipformer诞生之路｜ICLR 2024 Oral

机器之心专栏作者：新一代 Kaldi 团队近日，小米集团新一代 Kaldi 团队关于语音识别声学模型的论文《Zipformer: A faster and better encoder for automatic...

阅读原文

AIGC动态

2年前 (2024)

大模型专家混合MoE模型详解

本文转载自公众号：青稞AI，原作者：Miller@知乎。Mixtral 8x7B 的推出（参见公告[1]和模型卡片[2]在开放 AI 领域引发了广泛关注，特别是对于专家混合（Mixtu...

阅读原文

AIGC动态

2年前 (2024)

大模型训练loss突刺原因和解决办法

直播预告 | 今晚7点，「自动驾驶新青年讲座」第35讲正式开讲，LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive：大语言模型加持的闭环端到端自动...

阅读原文

AIGC动态

2年前 (2024)

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译：赵阳本文将介绍 MoE 的构建模块、训练方法以及在使用它们进行推理时需要考虑的权衡因素。专家混合 (MoE) 是 LLM 中常用的一种技...

阅读原文

AIGC动态

2年前 (2024)

超过ConvNeXt，CSWin等！上海交大提出Transformer架构新SOTA：SeTformer！

直播预告 | 1月22日晚7点，「自动驾驶新青年讲座」第35讲正式开讲，LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive：大语言模型加持的闭环端到...

阅读原文

AIGC动态

2年前 (2024)

苹果 Vision Pro 正式开启预定，我们找到了这些关键参数

苹果 Vision Pro 正式开启预定，我们找到了这些关键参数 , 发表于2024-01-1922:18 , ,…

阅读原文

AIGC动态

2年前 (2024)

AI视频可控性高能进化！复刻《黑客帝国》经典镜头只需笔刷

西风发自凹非寺量子位 | 公众号 QbitAI5个笔刷，对着一张图一顿刷刷刷刷刷，原本静止的小鸟们就各自运动了起来： Gen-2“运动笔刷”（Motion Brush）官宣再进...

阅读原文

AIGC动态

2年前 (2024)

三个臭皮匠顶个诸葛亮？可能是真的，已证实混合多个小模型性能比肩GPT3.5

机器之心报道编辑：rome对模型参数量的迷信、执念也许可以放下了，混合多个小模型也是未来构造对话型 AI 的一个光明的方向。在对话型人工智能（AI）研究中...

阅读原文

AIGC动态

2年前 (2024)

独家｜非 Transformer 开源大模型 RWKV 元始智能已完成种子轮融资

训练出千亿模型依然是 RWKV 当下最能证明自己的事情。作者丨张进编辑丨陈彩娴 AI科技评论独家获悉，开源LLM RWKV背后的元始智能，种子轮融资已于1月16日走...

阅读原文

AIGC动态

2年前 (2024)

Stability AI发布全新代码模型Stable Code 3B！媲美70亿Code Llama，没GPU也能跑

新智元报道编辑：润 alan 【新智元导读】今天，Stability AI发布了Stable Code 3B，在图片生成之外的战场上，Stability也开始发力了今天，Stability AI发布了...

阅读原文

AIGC动态

2年前 (2024)

1…10 111213 14…16