标签:文本

看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令

机器之心报道 编辑:Panda用图 2 的风格画图 1 的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态...
阅读原文

无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造

机器之心专栏 机器之心编辑部在过去短短两年内,随着诸如LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E 2、ControlNet、Composer ,效果惊人...
阅读原文

一句话精准视频片段定位!清华新方法拿下SOTA|已开源

陈厚伦 投稿量子位 | 公众号 QbitAI只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配...
阅读原文

短剧时代即将来临?AI自动生成剧本和多场景长视频

大数据文摘授权转载自将门创投 作者:HiDream.ai 近年来随着扩散模型(diffusion models)的进步和发展,给定文本提示进行高质量视频生成技术有着显著的提升...
阅读原文

谷歌发布Prompt Expansion框架,让文生图更轻松!

夕小瑶科技说 原创作者 | 付奶茶、Python尽管文本生成图像(Text-to-Image Generation)模型功能强大,但有效地利用它们依然是一项挑战,因为传统使用方法往...
阅读原文

GPT-4抽象推理PK人类差距巨大!多模态远不如纯文本,AGI火花难以独立燃烧

新智元报道编辑:Mindy 润 【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从G...
阅读原文

AI绘图模型不会写字的难题,被阿里破解了

克雷西 发自 凹非寺量子位 | 公众号 QbitAI能准确写汉字的AI绘图工具,终于登场了! 包括中文在内一共支持四种语言,而且还能文字的位置还能任意指定。 从此...
阅读原文

用扩散模型监督NeRF,清华文生3D新方法成新SOTA

清华王霞投稿量子位 | 公众号 QbitAI用文字合成3D图形的AI模型,又有了新的SOTA! 近日,清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。 ...
阅读原文

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

机器之心专栏 机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最...
阅读原文

Meta翻译大模型可模仿语气语速!AI再也不“莫得感情”了|GitHub 9k标星

丰色 发自 凹非寺量子位 | 公众号 QbitAIMeta发布了全新AI翻译大模型,实时语音转换延迟不超过2秒。 感受一把这个速度(西班牙语英语): 不仅速度快,它的准...
阅读原文

谷歌推出视频生成大型语言模型VideoPoet

点击上方蓝字关注我们“Google推出VideoPoet,一款生成式AI系统,通过文本等输入创建和编辑视频。与竞争模型不同,VideoPoet整合多项功能于单一模型,包括文本...
阅读原文

谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika

明敏 发自 凹非寺量子位 | 公众号 QbitAI你敢信?大熊猫都会打牌了! 看这毛茸茸的脑袋、抓牌的动作…… 而这其实都是AI生成的,还是零样本那种。 这就是谷歌最...
阅读原文

OpenAI 官方 Prompt 工程指南:写好 Prompt 的六个策略

其实一直有很多人问我,Prompt 要怎么写效果才好,有没有模板。 我每次都会说,能清晰的表达你的想法,才是最重要的,各种技巧都是其次。但是,我还是希望发...
阅读原文

视频生成可以无限长?谷歌VideoPoet大模型上线,网友:革命性技术

机器之心报道 机器之心编辑部蒙娜丽莎打哈欠,小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频...
阅读原文

谷歌重磅发布零样本视频生成模型!效果惊艳,赶超扩散模型?

夕小瑶科技说 原创作者 | 王二狗今日,谷歌AI发布了最新的视频生成模型VideoPoet。 VideoPoet 没有采用流行的扩散模型架构,其本质上是一种多模态大语言模型...
阅读原文
1141516171822