标签：切分

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

9个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

1年前 (2024)

2B多模态新SOTA！华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症

新智元报道编辑：LRST 好困【新智元导读】Mini-Monkey 是一个轻量级的多模态大型语言模型，通过采用多尺度自适应切分策略（MSAC）和尺度压缩机制（SCM），有...

阅读原文

AIGC动态

1年前 (2024)

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

机器之心发布机器之心编辑部伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkp...

阅读原文

AIGC动态

1年前 (2024)

第四范式发布先知 AIOS 5.1，节省大模型算力硬件成本，提高 GPU 综合利用率

今天，第四范式先知AIOS 5.1版本正式发布。该版本新增GPU资源池化（vGPU）能力，实现对硬件集群平台化管理、算力资源的按需分配和快速调度，最多节省80%的硬...

阅读原文

AIGC动态

1年前 (2024)

关于Tokenizer的一些感想

原文：https://zhuanlan.zhihu.com/p/695307425 在现有Transformer作为大模型框架下，万物tokenizer将会是一个必然的趋势！ 01为什么我们需要Token化？tokeni...

阅读原文

AIGC动态

1年前 (2024)

大模型训练之序列并行双雄：DeepSpeed Ulysses和Ring-Attention

导读本文来自知乎，作者为腾讯专家工程师方佳瑞。本文只做学术/技术分享，如有侵权，联系删文。本文对比两种目前炙手可热长文本训练方法 DeepSpeed Ulysess ...

阅读原文

AIGC动态

1年前 (2024)

单个4090可推理，2000亿稀疏大模型「天工MoE」开源

机器之心发布机器之心编辑部在大模型浪潮中，训练和部署最先进的密集 LLM 在计算需求和相关成本上带来了巨大挑战，尤其是在数百亿或数千亿参数的规模上。为...

阅读原文

AIGC动态

1年前 (2024)

昆仑万维开源 2 千亿稀疏大模型天工 MoE，全球首创能用 4090 推理

2024年6月3日，昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE ，性能强劲，同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间...

阅读原文

AIGC动态

1年前 (2024)

大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练

直播预告 | 5月28日10点，「智猩猩AI新青年讲座」第236讲正式开讲，密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...

阅读原文

AIGC动态

1年前 (2024)

大模型进入「实用」时代！腾讯助力「销冠」量产，5 分钟创建智能助手

机器之心原创作者：张倩今年年初，英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实，他的原话是「过去，几乎每个人都会告诉你，学习计算机...

阅读原文

AIGC动态

1年前 (2024)

极长序列、极快速度：面向新一代高效大语言模型的LASP序列并行

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

华人团队用大模型实现“读心术”：大脑活动直接变文字 | NeurIPS 2023

克雷西发自凹非寺量子位 | 公众号 QbitAINeurIPS收录的一项新研究，让大模型也学会“读心术”了！通过学习脑电波数据，模型成功地把受试者的脑电图信号翻译...

阅读原文

AIGC动态

2年前 (2023)

32卡176%训练加速，开源大模型训练框架Megatron-LLaMA来了

机器之心发布机器之心编辑部9 月 12 日，淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA，旨在让技术开发者们能够更方便的提升大语言模型...

阅读原文

AIGC动态

2年前 (2023)