标签：文本

攻克图像「文本生成」难题，碾压同级扩散模型！两代TextDiffuser架构深度解析

新智元报道编辑：LRS 好困【新智元导读】解决扩散模型「不识字」的问题，Textdiffuser采用两阶段（布局+图像）生成框架，显著提升了相关性能的指标！近年来...

阅读原文

AIGC动态

2年前 (2024)

看见这张图没有，你就照着画：谷歌图像生成AI掌握多模态指令

机器之心报道编辑：Panda用图 2 的风格画图 1 的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了！通过引入指令微调技术，多模态...

阅读原文

AIGC动态

2年前 (2024)

无需文本标注，TF-T2V把AI量产视频的成本打下来了！华科阿里等联合打造

机器之心专栏机器之心编辑部在过去短短两年内，随着诸如LAION-5B 等大规模图文数据集的开放，Stable Diffusion、DALL-E 2、ControlNet、Composer ，效果惊人...

阅读原文

AIGC动态

2年前 (2024)

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

陈厚伦投稿量子位 | 公众号 QbitAI只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配...

阅读原文

AIGC动态

2年前 (2024)

短剧时代即将来临？AI自动生成剧本和多场景长视频

大数据文摘授权转载自将门创投作者：HiDream.ai 近年来随着扩散模型（diffusion models）的进步和发展，给定文本提示进行高质量视频生成技术有着显著的提升...

阅读原文

AIGC动态

2年前 (2024)

谷歌发布Prompt Expansion框架，让文生图更轻松！

夕小瑶科技说原创作者 | 付奶茶、Python尽管文本生成图像（Text-to-Image Generation）模型功能强大，但有效地利用它们依然是一项挑战，因为传统使用方法往...

阅读原文

AIGC动态

2年前 (2024)

GPT-4抽象推理PK人类差距巨大！多模态远不如纯文本，AGI火花难以燃烧

新智元报道编辑：Mindy 润【新智元导读】圣达菲研究所的科研人员用非常严谨的定量研究方法，测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从G...

阅读原文

AIGC动态

2年前 (2024)

AI绘图模型不会写字的难题，被阿里了

克雷西发自凹非寺量子位 | 公众号 QbitAI能准确写汉字的AI绘图工具，终于登场了！包括中文在内一共支持四种语言，而且还能文字的位置还能任意指定。从此...

阅读原文

AIGC动态

2年前 (2024)

用扩散模型监督NeRF，清华文生3D新方法成新SOTA

清华王霞投稿量子位 | 公众号 QbitAI用文字合成3D图形的AI模型，又有了新的SOTA！近日，清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。 ...

阅读原文

AIGC动态

2年前 (2023)

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

机器之心专栏机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最...

阅读原文

AIGC动态

3年前 (2023)

Meta翻译大模型可模仿语气语速！AI再也不“莫得感情”了｜GitHub 9k标星

丰色发自凹非寺量子位 | 公众号 QbitAIMeta发布了全新AI翻译大模型，实时语音转换延迟不超过2秒。感受一把这个速度（西班牙语英语）：不仅速度快，它的准...

阅读原文

AIGC动态

3年前 (2023)

谷歌推出视频生成大型语言模型VideoPoet

点击上方蓝字关注我们“Google推出VideoPoet，一款生成式AI系统，通过文本等输入创建和编辑视频。与竞争模型不同，VideoPoet整合多项功能于单一模型，包括文本...

阅读原文

AIGC动态

3年前 (2023)

谷歌发布新大语言模型：零样本生成10秒视频达SOTA！网友：压力给到Runway/Pika

明敏发自凹非寺量子位 | 公众号 QbitAI你敢信？大熊猫都会打牌了！看这毛茸茸的脑袋、抓牌的动作…… 而这其实都是AI生成的，还是零样本那种。这就是谷歌最...

阅读原文

AIGC动态

3年前 (2023)

OpenAI 官方 Prompt 工程指南：写好 Prompt 的六个策略

其实一直有很多人问我，Prompt 要怎么写效果才好，有没有模板。我每次都会说，能清晰的表达你的想法，才是最重要的，各种技巧都是其次。但是，我还是希望发...

阅读原文

AIGC动态

3年前 (2023)

视频生成可以无限长？谷歌VideoPoet大模型上线，网友：性技术

机器之心报道机器之心编辑部蒙娜丽莎打哈欠，小鸡学会举铁……谷歌VideoPoet大模型表现很亮眼。2023 年底，科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频...

阅读原文

AIGC动态

3年前 (2023)

1…14 151617 18…22