标签:文本
画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了
机器之心报道 编辑:陈萍现在,通过文本提示和一个 2D 边界框,我们就能在 3D 场景中生成对象。看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托...
世界顶尖多模态大模型开源!又是零一万物,又是李开复
允中 发自 凹非寺量子位 | 公众号 QbitAI领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔...
零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先
机器之心发布 机器之心编辑部1 月 22 日,零一万物 Yi 系列模型家族迎来新成员:Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。据悉,Yi-VL...
一张照片,为深度学习巨头们定制人像图片
机器之心专栏 作者:InstantX 团队主题驱动的文本到图像生成,通常需要在多张包含该主题(如人物、风格)的数据集上进行训练,这类方法中的代表工作包括 Drea...
今日Arxiv最热NLP大模型论文:LLM化身符号逻辑大师,智能体文本游戏新纪元
夕小瑶科技说 原创作者 | 赛博马良本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。智能体传送门: https://ww...
多模态训练,怎么对齐不同模态?
直播预告 | 1月22日晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到...
今日Arxiv最热NLP大模型论文:MIT推出新方法,大幅提升LLMs的连贯性、准确性和可更新性!
夕小瑶科技说 原创作者 | 赛博马良本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核后发布。 智能体传送门: https://w...
20%的杨幂+80%的泰勒长什么样?小红书风格化AI来了,可兼容SD和ControlNet
丰色 发自 凹非寺量子位 | 公众号 QbitAI不得不说,现在拍写真真是“简单到放肆”了。 真人不用出镜,不用费心凹姿势、搞发型,只需一张本人图像,等待几秒钟,...
字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2
夕小瑶科技说 原创作者 | 谢年年、python扩散模型带动了文生视频领域的发展。Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等模型在...
GPT-5前瞻!艾伦人工智能研究所发布最强多模态模型,预测GPT-5新能力
新智元报道编辑:alan 【新智元导读】近日,艾伦人工智能研究所发布了Unified-IO 2,——第一代Unified-IO曾预测了GPT-4等模型的能力,所以我们可以从新一代的...
腾讯 PCG ARC Lab、新加坡国立大学联合发布 M2UGen:基于 LLM 的多模态音乐理解与生成
在过去的一年里,基于大语言模型LLM的音乐AIGC技术蓬勃发展,为LLM的下游应用注入了新的活力。 本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合...
四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
克雷西 发自 凹非寺量子位 | 公众号 QbitAI无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍! 而且是“即插即用”,理论上可以适配任意大模型...
微软最新研究成果:使用GPT-4合成数据来训练AI模型,实现SOTA!
夕小瑶科技说 原创作者 | 谢年年、王二狗文本嵌入是各项NLP任务的基础,用于将自然语言转换为向量表示。现有的大部分方法通常采用复杂的多阶段训练流程,先在...
新加坡国立大学发布图文预训练框架 CosMo,助力长文本理解
夕小瑶科技说 原创作者 | 智商掉了一地、Python近年来,随着大型语言模型(LLM)的兴起,让多模态学习领域也得到了不断发展。本文作者深入探讨了视觉-语言预...
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
新智元报道编辑:LRS 好困 【新智元导读】解决扩散模型「不识字」的问题,Textdiffuser采用两阶段(布局+图像)生成框架,显著提升了相关性能的指标!近年来...