标签:张量
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
专家模型不要专家并行!微软开源MoE新路径
新智元报道编辑:alan 【新智元导读】近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软...
从图像到视频:浅谈Video Diffusion Models背后的底层原理
01前言最近一段时间恰好在推进手上的一个做视频生成相关的课题,也是对视频扩散模型(Video Diffusion Models)这一领域有了颇多认识。其中,视频扩散模型...
「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need
新智元报道编辑:乔杨 好困 【新智元导读】Transformer计算,竟然直接优化到乘法运算了。MIT两位华人学者近期发表的一篇论文提出:Addition is All You Need...
一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源
允中 发自 凹非寺量子位 | 公众号 QbitAIFP8通过其独特的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练...
TensorRT-LLM保姆级教程(一)-快速入门
随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现...
如果大爆炸不是有史以来的第一次,那是什么导致了它发生?
来源:科技世代千高原 许多持反对态度的人对宇宙膨胀的发生提出质疑。但证据表明事实并非如此。 不断膨胀的宇宙充满了星系和我们今天观察到的复杂结构,它起...
Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效
机器之心发布 机器之心编辑部伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkp...
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
新智元报道编辑:编辑部 【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练...
斯坦福博士图解AlphaFold 3:超多细节+可视化还原ML工程师眼中的AF3
新智元报道编辑:乔杨 庸庸 【新智元导读】AlphaFold 3的论文太晦涩?没关系,斯坦福大学的两位博士生「图解」AlphaFold 3 ,将模型架构可视化,同时不遗漏任...
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只需激活60%的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激...
参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA
Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。 然而,以L...
AI真·炼丹:整整14天,无需人类参与
金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI现在制药这事,人类要靠边站了。 坐标苏州,这是一个1600平的制药实验室,它的“打开方式”是这样的: 门口,没有...
史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造
机器之心报道 编辑:泽南、杜伟生成式 AI 推理性价比是 GPU 的 140 倍。大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。 现在,终于有一家公司带...
大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度
机器之心发布 作者:李师尧(无问芯穹TechView)基于 Transformer架构的大型语言模型在各种基准测试中展现出优异性能,但数百亿、千亿乃至万亿量级的参数规模...
这个团队做了OpenAI没Open的技术,开源OpenRLHF让对齐大模型超简单
机器之心报道 编辑:Panda随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解...