标签:编码器

陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

丰色 发自 凹非寺量子位 | 公众号 QbitAI陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法: 它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至1...
阅读原文

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

新智元报道编辑:桃子 【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷...
阅读原文

用扩散模型生成神经网络?NUS 尤洋团队:这不是开玩笑

Neural Network Diffusion,开始用魔法打败魔法了。作者丨赖文昕 编辑丨郭思、陈彩娴 说起扩散模型生成的东西,你会立刻想到什么? 是OpenAI的经典牛油果椅子...
阅读原文

如何提升多模态效果?从这26个主流大模型来看看

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI基础软件专场和AIGC应用专场;分会场将进行具...
阅读原文

香港最大AI诈骗案!Deepfake换脸「英国CFO」,直接骗走公司2亿港币

新智元报道编辑:润 【新智元导读】香港一家跨国公司员工,被骗子邀请进了用Deepfake做的「高管视频会议」中,下令让他转了2亿港币到不知名中账户,5天之后才...
阅读原文

腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法

夕小瑶科技说 原创作者 | 小戏、Python在大规模语言模型(LLMs)通往通用人工智能(AGI)的道路中,从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多...
阅读原文

何恺明谢赛宁团队步步解构扩散模型,最后竟成经典去噪自编码器

机器之心报道 编辑:Panda去噪扩散模型(DDM)是当前图像生成技术的一大主流方法。近日,Xinlei Chen、Zhuang Liu、谢赛宁与何恺明四人团队对 DDM 进行了解构...
阅读原文

何恺明谢赛宁解剖扩散模型,新作刚刚出炉

编辑部 发自 凹非寺量子位 | 公众号 QbitAICV大神何恺明,也来搞扩散模型(Diffusion Model)了! 大神最新论文刚刚挂上arXiv,还是热乎的:解构扩散模型,提...
阅读原文

大模型学会听音乐了!风格乐器精准分析,还能剪辑合成

腾讯PCG ARC实验室 投稿量子位 | 公众号 QbitAI能处理音乐的多模态大模型,终于出现了! 只见它准确分析出音乐的旋律、节奏,还有使用的乐器,甚至其中的意境...
阅读原文

阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型

1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
阅读原文

腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成

在过去的一年里,基于大语言模型LLM的音乐AIGC技术蓬勃发展,为LLM的下游应用注入了新的活力。 本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合...
阅读原文

Faster Diffusion | 深入挖掘UNet编码器作用,加速41%采样速度,效果几乎不下降

直播预告 | 今晚7点,「AI新青年讲座」232讲正式开讲,清华大学在读博士刘世隆主讲《LLaVA-Plus:学习使用视觉工具插件的多模态智能体》,欢迎扫码报名。http...
阅读原文

NeurIPS23|视觉 「读脑术」:从大脑活动中重建你眼中的世界

机器之心专栏 机器之心编辑部在这篇 NeurIPS23 论文中,来自鲁汶大学、新加坡国立大学和中科院自动化所的研究者提出了一种视觉 「读脑术」,能够从人类的大脑...
阅读原文

小模型也可以「分割一切」,Meta改进SAM,参数仅为原版5%

机器之心报道编辑:陈萍、蛋酱对于 2023 年的计算机视觉领域来说,「」(Segment Anything Model)是备受关注的一项研究进展。Meta四月份发布的「分割一切模...
阅读原文

跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译

新智元报道编辑:好困【新智元导读】Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。就在Meta AI...
阅读原文