标签:参数

一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型

机器之心报道机器之心编辑部「高端」的开源,往往采用最朴素的发布方式。昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。没有长篇官方博...
阅读原文

大道至简?ETH研究团队提出简化版Transformer模型,综合效率明显提升

大数据文摘受权转载自将门创投‍2023年,Transformer已经成为人工智能领域中最受欢迎的基础模型,如今火热的大型语言模型,多模态大模型均由不同类型的Transfo...
阅读原文

H100最强竞品正式发布!推理快1.6倍,内存高达192GB,来自AMD

丰色 发自 凹非寺量子位 | 公众号 QbitAI这一夜,AI科技圈热闹非凡:谷歌搬出“蓄谋已久”的大杀器Gemini,号称直接掀翻GPT-4;另一边,芯片商AMD也按耐不住,...
阅读原文

秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头

丰色 发自 凹非寺量子位 | 公众号QbitAI国产大模型刚刚出了一位全新选手:参数670亿的DeepSeek。它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的...
阅读原文

不是大模型全局微调不起,只是LoRA更有性价比,教程已经准备好了

选自 Sebastian Raschka 博客机器之心编译编辑:佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验,值得一读。增加数据量和模型的参数量是公认的提...
阅读原文

手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion

机器之心专栏机器之心编辑部在手机等移动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一,其中生成速度是主要的制约因素。...
阅读原文

通义千问爆甩开源全家桶!最强720亿参数超车Llama 2,新上视觉模型看图直出代码

新智元报道编辑:编辑部【新智元导读】通义千问开源全家桶正式上线!业界最强72B模型直接超越开源标杆Llama 2-70B,还有1.8B模型、音频大模型全部开源,阿里...
阅读原文

最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练

明敏 金磊 发自 凹非寺量子位 | 公众号 QbitAI开源大模型这个圈子,真是卷到不行——国内最新纪录来了,直奔千亿量级,达到1026亿。千亿参数、全面开源、无需授...
阅读原文

首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指

新智元报道编辑:编辑部【新智元导读】昨天,浪潮信息发布源2.0基础大模型,并一口气开源了1026亿、518亿、21亿三个大模型!而在编程、推理、逻辑这些老大难...
阅读原文

OpenAI文件惊人曝出,Q*疑能加密!AI背着人类在编程,网友:三个月接近AGI

新智元报道编辑:Aeneas alan【新智元导读】OpenAI员工曾在Altman被解雇的前一天发帖:AI正在自己编程!这一帖子被挖出后,更多内幕文件被曝出,表示Q*已经破...
阅读原文

简化版Transformer来了,网友:年度论文

机器之心报道机器之心编辑部从大模型的根源开始优化。Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种...
阅读原文

李沐大模型公司细节曝光,项目GitHub空仓标星超500

衡宇 发自 凹非寺量子位 | 公众号 QbitAIAI大神李沐大模型创业方向,终于“水落石出”:利用大模型能力,做游戏引擎,且是面向4A游戏。关于4A游戏这个概念,目...
阅读原文

清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

夕小瑶科技说 原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型(LLM)的研究,都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...
阅读原文

OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线

机器之心报道编辑:杜伟赶紧学习起来吧!OpenAI 的风波暂时告一段落,员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言...
阅读原文

大模型扫盲系列——初识大模型

大数据文摘受权转载自数据派THU作者:金一鸣编辑:黄继彦近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果。为了提高模型的性...
阅读原文
11213141516