将图像自动文本化，图像描述质量更高、更准确了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：将图像自动文本化，图像描述质量更高、更准确了
关键字：文本,图像,模型,图片,细节
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com皮仁杰：香港科技大学博士三年级学生，师从张潼教授和周晓方教授。于 2024 年获得苹果奖学金。目前主要研究方向是多模态大语言模型和数据为中心的 AI。
张鉴殊：大学本科三年级学生，目前在张潼教授的指导下担任研究实习生，主要研究方向是大语言模型，多模态大语言模型以及持续学习。当下在寻找 2025 fall 博士入学机会。
在当今的多模态大模型的发展中，模型的性能和训练数据的质量关系十分紧密，可以说是 “数据赋予了模型的绝大多数能力”。
在这其中，图像 – 文本数据集发挥着至关重要的作用，在图像理解、文本生成和图像检索等多个领域发挥着关键作用。
然而，现有的图像描述数据集主要来源于网络抓取和人工标注，存在着质量参差不齐、细节缺失、描述噪音多等问题。尽管人类可以

原文链接：将图像自动文本化，图像描述质量更高、更准确了

联系作者

文章来源：机器之心
作者微信：almosthuman2014
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 图像 # 图片 # 文本 # 模型 # 细节

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

将图像自动文本化，图像描述质量更高、更准确了

AIGC动态欢迎阅读

内容摘要：

联系作者

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

甲小姐对话张璐：硅谷AI，90%的C端机会属于大厂｜甲子光年

相关文章

暂无评论

将图像自动文本化，图像描述质量更高、更准确了

AIGC动态欢迎阅读

内容摘要：

联系作者

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

甲小姐对话张璐： 硅谷AI，90%的C端机会属于大厂｜甲子光年

相关文章

暂无评论

甲小姐对话张璐：硅谷AI，90%的C端机会属于大厂｜甲子光年