标签:参数

参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA

Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。 然而,以L...
阅读原文

OpenAI服务受限?别担心,来这里丝滑玩转700亿参数Llama3,还有100元券免费薅!

新智元报道编辑:编辑部 【新智元导读】如何无痛玩转Llama 3,这个手把手教程一看就会!80亿参数推理单卡半分钟速成,微调700亿参数仅用4卡近半小时训完,还...
阅读原文

“小语言模型”或成为庞大人工智能选项的替代品

ISTOCK 来源:IEEE电气电子工程师学会 科技公司已经陷入了建立大型语言模型(LLM,https://spectrum.ieee.org/ai-index-2024)的竞争中。例如,今年4月,Meta...
阅读原文

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

新智元报道编辑:编辑部 【新智元导读】是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3...
阅读原文

不做数值运算、纯靠嘴炮也能机器学习?基于自然语言的全新ML范式来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

1块3090就能训7B大模型,山东大学低带宽低显存训练法,解决显卡限购卡脖子

夕小瑶科技说 原创作者 | 谢年年 大模型的全参数微调对资源要求非常高,当前业界更倾向于采用LoRA,Parallel Adapter等参数高效微调(PEFT)方法,通过添加只...
阅读原文

Llama 3模型作者在智源大会的分享全文

文章转载自公众号:智源社区,本文只做学术/技术分享,如有侵权,联系删文。或许,AGI正是我们这代人的「哥白尼革命」。就像当初人类发现地球其实没什么特别...
阅读原文

Llama 3模型作者中国首讲!LLM 前世今生,AGI 是我们这代人的哥白尼革命丨2024智源大会回顾

夕小瑶科技说 分享来源| 智源社区 或许,AGI正是我们这代人的「哥白尼革命」。就像当初人类发现地球其实没什么特别的,只是一个位于普通星系之中,围绕普通恒...
阅读原文

树莓派上部署RAG!微软Phi-3技术报告揭示「小而美」模型如何诞生

新智元报道编辑:乔杨 好困 【新智元导读】Build大会召开两周之后,微软更新了Phi-3系列模型的技术报告。不仅加入最新的基准测试结果,而且对小模型、高性能...
阅读原文

英伟达开源最强通用模型Nemotron-4 340B

机器之心报道 机器之心编辑部性能超越 Llama-3,主要用于合成数据。英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。 本周五,英伟达宣布推出 N...
阅读原文

Karpathy 4小时AI大课上线,小白看了都会从零构建GPT-2!

新智元报道编辑:桃子 【新智元导读】距上次Karpathy AI大课更新之后,又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT...
阅读原文

大模型国产化适配5-百度飞浆PaddleNLP大语言模型工具链总结

近年来,人工智能快速发展,成为全球最为前沿的科技领域;与此同时,也诞生了很多优秀的 AI 工具。比如:国外的 AI 工具 PyTorch 、TensorFlow等,国产 AI 工...
阅读原文

今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理

夕小瑶科技说 原创作者 | Axe_越还记得2022年末ChatGPT的横空出世,带来了整个NLP乃至AI领域的震动,随后如LLaMA、ChatGLM、Qwen等类ChatGPT大模型(LLM)开...
阅读原文

单个4090可推理,2000亿稀疏大模型「天工MoE」开源

机器之心发布 机器之心编辑部在大模型浪潮中,训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战,尤其是在数百亿或数千亿参数的规模上。为...
阅读原文

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...
阅读原文
13456716