标签:初始化

从头预训练一只超迷你 LLaMA 3

直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
阅读原文

改变LoRA的初始化方式,北大新方法PiSSA显著提升微调效果

机器之心专栏 机器之心编辑部随着大模型的参数量日益增长,微调整个模型的开销逐渐变得难以接受。 为此,北京大学的研究团队提出了一种名为 PiSSA 的参数高效...
阅读原文

超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片

机器之心报道 编辑:陈萍北大团队联合兔展发起的 Sora 复现计划,现在有了新成果。OpenAI 在今年年初扔出一项重大研究,Sora 将视频生成带入一个新的高度,很...
阅读原文

Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升

夕小瑶科技说 原创作者 | 付奶茶、python大语言模型在编程、数学、生物医学和金融等专业领域性能不佳,通过特定领域后训练可在降低资源消耗的同时提升性能。...
阅读原文

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

机器之心报道 编辑:陈萍感兴趣的小伙伴,可以跟着操作过程试一试。前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相...
阅读原文

LLaMA开源大模型源码分析!

01LLaMA-Model在transformers仓库中可以看到llama的源码,首先是LlamaModel类,继承自PreTrainedModel,这个类是所有模型的基类,包含了一些通用的方法,比如...
阅读原文