标签：参数

一条磁力链接席卷AI圈，87GB种子直接开源8x7B MoE模型

机器之心报道机器之心编辑部「高端」的开源，往往采用最朴素的发布方式。昨天，Mistral AI 在 X 平台甩出一条磁力链接，宣布了新的开源动作。没有长篇官方博...

阅读原文

AIGC动态

3年前 (2023)

大道至简？ETH研究团队提出简化版Transformer模型，综合效率明显提升

大数据文摘受权转载自将门创投‍2023年，Transformer已经成为人工智能领域中最受欢迎的基础模型，如今火热的大型语言模型，多模态大模型均由不同类型的Transfo...

阅读原文

AIGC动态

3年前 (2023)

H100最强竞品正式发布！推理快1.6倍，内存高达192GB，来自AMD

丰色发自凹非寺量子位 | 公众号 QbitAI这一夜，AI科技圈热闹非凡：谷歌搬出“蓄谋已久”的大杀器Gemini，号称直接掀翻GPT-4；另一边，芯片商AMD也按耐不住，...

阅读原文

AIGC动态

3年前 (2023)

秒杀700亿Llama 2！最新国产大模型亮相，无需申请即可免费商用，背后公司来自私募巨头

丰色发自凹非寺量子位 | 公众号QbitAI国产大模型刚刚出了一位全新选手：参数670亿的DeepSeek。它在近20个中英文的公开评测榜单上直接超越了同量级、700亿的...

阅读原文

AIGC动态

3年前 (2023)

不是大模型全局微调不起，只是LoRA更有性价比，教程已经准备好了

选自 Sebastian Raschka 博客机器之心编译编辑：佳琪这是作者 Sebastian Raschka 经过数百次实验得出的经验，值得一读。增加数据量和模型的参数量是公认的提...

阅读原文

AIGC动态

3年前 (2023)

手机上0.2秒出图、当前速度之最，谷歌打造超快扩散模型MobileDiffusion

机器之心专栏机器之心编辑部在手机等移动端侧运行 Stable Diffusion 等文生图生成式 AI 大模型已经成为业界追逐的热点之一，其中生成速度是主要的制约因素。...

阅读原文

AIGC动态

3年前 (2023)

通义千问爆甩开源全家桶！最强720亿参数超车Llama 2，新上视觉模型看图直出代码

新智元报道编辑：编辑部【新智元导读】通义千问开源全家桶正式上线！业界最强72B模型直接超越开源标杆Llama 2-70B，还有1.8B模型、音频大模型全部开源，阿里...

阅读原文

AIGC动态

3年前 (2023)

最新千亿大模型免费商用：1026亿参数，无需授权！诚邀开发者共同训练

明敏金磊发自凹非寺量子位 | 公众号 QbitAI开源大模型这个圈子，真是卷到不行——国内最新纪录来了，直奔千亿量级，达到1026亿。千亿参数、全面开源、无需授...

阅读原文

AIGC动态

3年前 (2023)

首个全面开源的千亿模型来了！源2.0全家桶击破算力限制，代码数学强到发指

新智元报道编辑：编辑部【新智元导读】昨天，浪潮信息发布源2.0基础大模型，并一口气开源了1026亿、518亿、21亿三个大模型！而在编程、推理、逻辑这些老大难...

阅读原文

AIGC动态

3年前 (2023)

OpenAI文件惊人曝出，Q*疑能加密！AI背着人类在编程，网友：三个月接近AGI

新智元报道编辑：Aeneas alan【新智元导读】OpenAI员工曾在Altman被解雇的前一天发帖：AI正在自己编程！这一帖子被挖出后，更多内幕文件被曝出，表示Q*已经破...

阅读原文

AIGC动态

3年前 (2023)

简化版Transformer来了，网友：年度论文

机器之心报道机器之心编辑部从大模型的根源开始优化。Transformer 架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度 Transformer 架构的一种...

阅读原文

AIGC动态

3年前 (2023)

李沐大模型公司细节曝光，项目GitHub空仓标星超500

衡宇发自凹非寺量子位 | 公众号 QbitAIAI大神李沐大模型创业方向，终于“水落石出”：利用大模型能力，做游戏引擎，且是面向4A游戏。关于4A游戏这个概念，目...

阅读原文

AIGC动态

3年前 (2023)

清华提出 SoRA，参数量只有 LoRA 的 70%，表现更好！

夕小瑶科技说原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型（LLM）的研究，都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...

阅读原文

AIGC动态

3年前 (2023)

OpenAI内斗时，Karpathy在录视频：《大型语言模型入门》上线

机器之心报道编辑：杜伟赶紧学习起来吧！OpenAI 的风波暂时告一段落，员工也忙着「干活了」。年初回归 OpenAI 的 Andrej Karpathy 最近做了一场关于大型语言...

阅读原文

AIGC动态

3年前 (2023)

大模型扫盲系列——初识大模型

大数据文摘受权转载自数据派THU作者：金一鸣编辑：黄继彦近年来，随着计算机技术和大数据的快速发展，深度学习在各个领域取得了显著的成果。为了提高模型的性...

阅读原文

AIGC动态

3年前 (2023)

1…12 131415 16