标签:参数

总结!大模型微调(Tuning)的常见方法

直播预告 | 1月17日晚7点,「多模态大模型线上闭门会」正式开讲!阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,携手刘兆洋、李彦玮、文束三位青年学者...
阅读原文

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI开源MoE模型,终于迎来首位国产选手! 它的表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。 这个模型堪称1...
阅读原文

千卡规模训练算力利用率达 60%,蚂蚁开源分布式训练加速扩展库 ATorch

近日,蚂蚁集团宣布开源大模型分布式训练加速扩展库ATorch。ATorch可针对不同模型和硬件资源,实现深度学习自动资源动态优化和分布式训练稳定性提升,可帮助...
阅读原文

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

机器之心报道 编辑:陈萍、大盘鸡小身板,大能量。 当大家都在研究大模型(LLM)参数规模达到百亿甚至千亿级别的同时,小巧且兼具高性能的小模型开始受到研究...
阅读原文

盘点2023的大语言模型

大数据文摘授权转载自数据派THU 作者:陈之炎 2023年可谓大语言模型元年,许多大语言模型崭露头角,以ChatGPT 为首的生成式对话模型一枝独秀,在人工智能领域...
阅读原文

Hugging Face:2023开源LLM大爆发,数据竞赛已开启!

新智元报道编辑:alan 【新智元导读】2023年的LLM开源社区都发生了什么?来自Hugging Face的研究员带你回顾并重新认识开源LLM2023年的大语言模型(LLM),让...
阅读原文

显存瓶颈被打破!大模型训练的黑科技来了,带宽不再制约大模型训练

夕小瑶科技说 原创作者 | 卖萌酱 大家好,我是卖萌酱。 来一个快问快答,如何使用性能有限的GPU卡从头训练出一个ChatGPT? 在目前,随着模型参数量不断暴涨,...
阅读原文

中国大模型爆发元年!AI界大佬共话LLM创新探索|新浪新闻探索大会

新智元报道编辑:桃子 好困 【新智元导读】AI时代,中国大模型进展到哪了?12月20日,「数字力量,探索无穹」2023探索大会上,新智元创始人&CEO杨静,与...
阅读原文

1-2B参数规模大模型使用心得及模型汇总

直播预告 |12月26日晚7点,「AI新青年讲座」232讲正式开讲,清华大学在读博士刘世隆主讲《LLaVA-Plus:学习使用视觉工具插件的多模态智能体》,欢迎扫码报名...
阅读原文

微软官宣放出一个「小模型」,仅2.7B参数,击败Llama2和Gemini Nano 2

夕小瑶科技说 原创作者 | 小戏、王二狗就在前一阵谷歌深夜炸弹直接对标 GPT-4 放出 Gemini 之后,微软这两天也紧锣密鼓进行了一系列动作。尽管时间日趋圣诞假...
阅读原文

手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天,参数规模仅27亿

以小搏大!微软27亿参数模型击败Llama 2、Gemini Nano 2。作者|程茜编辑|李水青智东西12月13日报道,昨日晚间,微软又亮出了小模型大招!微软发布了27亿参数...
阅读原文

2024年AI趋势看这张图,LeCun:开源大模型要超越闭源

机器之心报道编辑:大盘鸡、泽南能感受到其中的趋势吗?2023 年即将过去。一年以来,各式各样的大模型争相发布。当 OpenAI 和谷歌等科技巨头正在角逐时, —— ...
阅读原文

一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型

机器之心报道机器之心编辑部「高端」的开源,往往采用最朴素的发布方式。昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。没有长篇官方博...
阅读原文

大道至简?ETH研究团队提出简化版Transformer模型,综合效率明显提升

大数据文摘受权转载自将门创投‍2023年,Transformer已经成为人工智能领域中最受欢迎的基础模型,如今火热的大型语言模型,多模态大模型均由不同类型的Transfo...
阅读原文

H100最强竞品正式发布!推理快1.6倍,内存高达192GB,来自AMD

丰色 发自 凹非寺量子位 | 公众号 QbitAI这一夜,AI科技圈热闹非凡:谷歌搬出“蓄谋已久”的大杀器Gemini,号称直接掀翻GPT-4;另一边,芯片商AMD也按耐不住,...
阅读原文