标签:编码器

OpenAI开源了:Transformer自动debug工具上线GitHub

机器之心报道 编辑:泽南不用敲代码,就可以快速探索模型结构。最近时常被吐槽不够开源的 OpenAI,突然开放了一次。 今天一早,OpenAI 机器学习研究员 Jan Le...
阅读原文

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

新智元报道编辑:桃子 【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘...
阅读原文

解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品

西风 发自 凹非寺量子位 | 公众号 QbitAISora刚发布不久,就被逆向工程“解剖”了?! 来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有...
阅读原文

Stable Diffusion 解读(一):回顾早期工作

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身...
阅读原文

陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

丰色 发自 凹非寺量子位 | 公众号 QbitAI陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法: 它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至1...
阅读原文

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

新智元报道编辑:桃子 【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷...
阅读原文

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

Neural Network Diffusion,开始用魔法打败魔法了。作者丨赖文昕 编辑丨郭思、陈彩娴 说起扩散模型生成的东西,你会立刻想到什么? 是OpenAI的经典牛油果椅子...
阅读原文

如何提升多模态效果?从这26个主流大模型来看看

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI基础软件专场和AIGC应用专场;分会场将进行具...
阅读原文

香港最大AI诈骗案!Deepfake换脸「英国CFO」,直接骗走公司2亿港币

新智元报道编辑:润 【新智元导读】香港一家跨国公司员工,被骗子邀请进了用Deepfake做的「高管视频会议」中,下令让他转了2亿港币到不知名中账户,5天之后才...
阅读原文

腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法

夕小瑶科技说 原创作者 | 小戏、Python在大规模语言模型(LLMs)通往通用人工智能(AGI)的道路中,从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多...
阅读原文

何恺明谢赛宁团队步步解构扩散模型,最后竟成经典去噪自编码器

机器之心报道 编辑:Panda去噪扩散模型(DDM)是当前图像生成技术的一大主流方法。近日,Xinlei Chen、Zhuang Liu、谢赛宁与何恺明四人团队对 DDM 进行了解构...
阅读原文

何恺明谢赛宁解剖扩散模型,新作刚刚出炉

编辑部 发自 凹非寺量子位 | 公众号 QbitAICV大神何恺明,也来搞扩散模型(Diffusion Model)了! 大神最新论文刚刚挂上arXiv,还是热乎的:解构扩散模型,提...
阅读原文

大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

腾讯PCG ARC实验室 投稿量子位 | 公众号 QbitAI能处理音乐的多模态大模型,终于出现了! 只见它准确分析出音乐的旋律、节奏,还有使用的乐器,甚至其中的意境...
阅读原文

阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型

1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
阅读原文

腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成

在过去的一年里,基于大语言模型LLM的音乐AIGC技术蓬勃发展,为LLM的下游应用注入了新的活力。 本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合...
阅读原文