下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用
关键字：模型,图像,报告,提示,基准
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测试集，用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能，还能通过选择最佳候选图像来实际改善生成的图像。近年来，生成式人工智能（AIGC）引发广泛关注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频，广受用户喜爱。然而，这些模型在处理复杂的提示词时仍存在不足。例如，当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追黑色的狗」时，模型可能会错误生成两只，或将「追逐」误解为两只狗在「玩耍」。有什么办法可以自动发现这些模型的不足，并进一步提升它们呢？
为解决这一问题，CMU和Meta团队联合推出了全新的评估指标VQAScore及基准GenAI-Bench，用于自动评估图像、视频和3D生成模型在复杂提示词下的表现。ECCV’24论文链接:：https://arxiv.or

原文链接：下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用