文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

关键字：文本,模型,图像,任务,视觉

文章来源：新智元

内容字数：6086字

内容摘要：新智元报道编辑：LRS 好困【新智元导读】文字也是一种视觉信息，多模态大语言模型KOSMOS-2.5不光能读懂论文，还能输出markdown格式！当前一个显著的趋势是致力于构建更大更复杂的模型，它们拥有数百/数千亿个参数，能够生成令人印象深刻的语言输出。然而，现有的大型语言模型主要集中在文本信息上，无法理解视觉信息。因此多模态大型语言模型（MLLMs）领域的进展旨在解决这一限制，MLLMs将视觉和…

原文链接：点此阅读原文：文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型