标签：权重

大模型国产化适配4-基于昇腾910使用LLaMA-13B进行多机多卡训练

直播预告 | 6月6日晚7点，「智猩猩AI新青年讲座」第238讲正式开讲，香港大学CVMI Lab在读博士杨霁晗将直播讲解《V-IRL：根植于真实世界的AI Agents》，欢迎...

阅读原文

AIGC动态

1年前 (2024)

不想炸薯条的Ilya和不送GPU的英伟达，Hinton最新专访：道路千万条，安全第一条

新智元报道编辑：alan 【新智元导读】从谷歌离职一年之际，「人工智能教父」Hinton接受了采访。半退休的Hinton向我们讲述了时光积累下来的智慧，以及那些年和...

阅读原文

AIGC动态

1年前 (2024)

大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练

直播预告 | 5月28日10点，「智猩猩AI新青年讲座」第236讲正式开讲，密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...

阅读原文

AIGC动态

1年前 (2024)

Altman被曝，OpenAI竟欲加密GPU合作军方？员工大批离职团队濒临崩溃

新智元报道编辑：Aeneas 好困【新智元导读】刚刚，有网友仔细总结了OpenAI的七宗罪，对Altman发出愤怒的诘问：为何计划跟踪GPU？为何合作军方？员工滚雪球式...

阅读原文

AIGC动态

1年前 (2024)

250行代码从头搭建Llama 3，GitHub一天4.6k星！Karpathy大赞

新智元报道编辑：乔杨好困【新智元导读】Llama 3发布一个月后，一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目，引起了开源社区的广泛关注...

阅读原文

AIGC动态

1年前 (2024)

LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

克雷西发自凹非寺量子位 | 公众号 QbitAI大数据巨头Databricks与哥伦比亚大学最新研究发现，在数学和编程任务上，LoRA干不过全量微调。具体来说，在这两种...

阅读原文

AIGC动态

1年前 (2024)

从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

西风发自凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️（点赞+转发+评论），一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....

阅读原文

AIGC动态

1年前 (2024)

Karpathy称赞，从零实现LLaMa3项目爆火，半天1.5k star

机器之心报道编辑：杜伟、陈萍项目中代码很多很全，值得细读。一个月前，Meta 发布了开源大模型 llama3 系列，在多个关键基准测试中优于业界 SOTA 模型，并...

阅读原文

AIGC动态

1年前 (2024)

大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理

直播预告 | 5月23日晚7点，「智猩猩机器人新青年讲座」第6讲正式开讲，论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...

阅读原文

AIGC动态

1年前 (2024)

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

机器之心报道机器之心编辑部Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差，提供了新的研究框架。众所周知，大语言模型的训练常常需要数月的时间，...

阅读原文

AIGC动态

1年前 (2024)

30篇论文，就能掌握当今科技90%的知识！ILYA公布神级论文清单(上）

点击上方蓝字关注我们“Ilya Sutskever向John Carmack推荐了一份精选的阅读清单，内含约30篇尖端的研究论文。这份清单不仅仅是学术文献的简单罗列，它被赋予了...

阅读原文

AIGC动态

1年前 (2024)

大模型MoE的前世今生，10个模型一文搞懂！

2024年3、4月这段时间，很多MoE模型扎堆发布，包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。下面这个表格列出了部分近期发布的MoE工作MoE模型目前风头正劲，就...

阅读原文

AIGC动态

2年前 (2024)

「非常接近GPT-4」的WizardLM-2被微软紧急撤回，有什么？

机器之心报道机器之心编辑部前段时间，微软搞了个乌龙：隆重地开源了 WizardLM-2，又在不久后撤回得干干净净。据现在可以查到的 WizardLM-2 发布信息，这是...

阅读原文

AIGC动态

2年前 (2024)

单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源

克雷西发自凹非寺量子位 | 公众号 QbitAIFP8和更低的浮点数量化精度，不再是H100的“专利”了！老黄想让大家用INT8/INT4，微软DeepSpeed团队在没有英伟达官...

阅读原文

AIGC动态

2年前 (2024)

Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航&ETH

QHT 投稿量子位 | 公众号 QbitAI大模型力大砖飞，让LLaMA3演绎出了新高度：超15T Token数据上的超大规模预训练，既实现了令人印象深刻的性能提升，也因远超C...

阅读原文

AIGC动态

2年前 (2024)

1 2 345 6…8