AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了
关键字：字节跳动,视频,内容,视觉,语言
文章来源：机器之心
内容字数：5397字

内容摘要：

机器之心专栏
机器之心编辑部Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。近年来，大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展，基于深度学习技术能够理解和生成复杂的文本内容。然而，将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息，还涉及时间序列的动态变化，这使得大语言模型从视频中提取信息变得更为复杂。
面对这一挑战，字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaMA 专门针对视频内容的复杂性设计，能够有效地将视频帧转换为准确的语言描述，从而极大地提高了视频内容分析和生成的质量。论文主页：https://jinxxian.github.io/Vista-LLaMA/图 1
技术创新路径
现有多模态视觉与语言模型在处理视频内容时，通常将视频帧转化为一系列的视觉 token，并与语言 token 结合以生成文本。然而，随着生成文本长度的增加，视频内容的影响往往逐渐减弱，导致生成的文本越来越多地偏离原视频内容，产

原文链接：AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了