标签:参数
仅需Llama3 1/17的训练成本,Snowflake开源128x3B MoE模型
机器之心报道 编辑:小舟、崔亚鹂Snowflake 加入 LLM 混战。Snowflake 发布高「企业智能」模型 Arctic,专注于企业内部应用。 刚刚,数据管理和仓库提供商 Sn...
苹果OpenELM:设备瞬间变聪明,自家AI无需联网也能用
点击上方蓝字关注我们“苹果推出OpenELM,一系列开源大型语言模型可在设备端独立运行,无需云端支持。包含8款模型,参数规模2700万至30亿,部分预训练与指令调...
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
机器之心报道 编辑:陈萍、大盘鸡苹果发布基于开源训练和推理框架的高效语言模型族 OpenELM。要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系...
24GB单卡全量微调Llama 3-8B,仅需添加一行代码
自ChatGPT问世以来,大型语言模型在各个领域引起了广泛兴趣,并催生了基于语言模型的应用,包括但不限于自动文本生成、信息检索、智能助理、聊天机器人以及智...
微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了
梦晨发自 凹非寺量子位 | 公众号 QbitAILlama 3发布刚几天,微软就出手截胡了? 刚刚发布的Phi-3系列小模型技术报告,引起AI圈热议。 其中仅3.8B参数的Phi-3-...
Meta AI 挑战 OpenAI!扎克伯格发布最强开源模型Llama 3,最大4000亿参数
大数据文摘受权转载自头部科技 文丨Congerry Meta 最新开源模型 Llama 3 如约而至。 上周,一位Meta员工透露,两款小型Llama 3模型将于本周发布。 今天,它来...
大模型扫盲系列——大模型实用技术介绍(上)
大数据文摘受权转载自数据派THU 编辑:黄继彦 校对:林赣敏01 Gemma模型架构和参数计算 上一篇文章《原创 | 大模型扫盲系列——初识大模型》从比较宏观的角度初...
最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍
开源大模型超闭源?Meta重回开源大模型铁王座。 编译|长颈鹿 编辑|李水青 智东西4月19日消息,昨夜,Meta推出迄今为止能力最强的开源大模型Llama 3系列,发布...
Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来
克雷西 鱼羊 发自 凹非寺量子位 | 公众号 QbitAILlama 3来了! 就在刚刚,Meta官网上新,官宣了Llama 3 80亿和700亿参数版本。 并且推出即为开源SOTA: Meta...
Llama 3 发布!目前最强开源大模型,全面登陆 Meta 系产品,即将推出 4000 亿模型
Meta 于本周四正式发布 Llama 3,官方号称「有史以来最强大的开源大模型」。 本次发布了 8B 和 70B 参数的大模型,提供了新功能,改进了推理能力,在行业基准...
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
机器之心报道 作者:泽南、杜伟OpenAI后,大模型新增长曲线来了。 大语言模型的效率,正在被这家「清华系」创业公司发展到新高度。从 ChatGPT 到 Sora,生成...
改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果
机器之心专栏 机器之心编辑部随着大模型的参数量日益增长,微调整个模型的开销逐渐变得难以接受。 为此,北京大学的研究团队提出了一种名为 PiSSA 的参数高效...
埋头钻研一年后,阶跃星辰交出了第一份答卷
迟迟不出手,一出手就把大模型赛道卷到了万亿级。作者|房晓楠 编辑|陈彩娴 历经去年持续一年之久的百模大战后,今年伊始,落地应用开始成为大模型的主流叙...
被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线
领先 Mistral,对标 Mistral,超越 Mistral。作者丨王悦 编辑丨陈彩娴 大约 1 个月前,马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE...
Mistral AI 引领AI新纪元:发布1760亿参数巨模型Mixtral 8x22B
点击上方蓝字关注我们“Mistral AI 公司宣布推出其最新的大型语言模型 Mixtral 8x22B,拥有1760亿参数和65,000个token的上下文长度,通过开源和宽松的Apache 2...