字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法
关键字：模型,字节跳动,图像,语言,视觉
文章来源：AI前线
内容字数：0字

内容摘要：

演讲嘉宾｜冯佳时
编辑｜蔡芳芳
策划｜ AICon 全球人工智能开发与应用大会
近年来，大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而，LLMs 在理解和生成自然信号（例如图像，视频）等，还处在比较早期的探索阶段。为了深入探讨这一主题，我们在 AICon 全球人工智能开发与应用大会上邀请到字节跳动研究科学家、豆包大模型视觉基础研究团队负责人冯佳时做主题演讲《大语言模型在计算机视觉领域的应用》。本次演讲将介绍字节跳动视觉基础研究团队在这个方向的探索与进展，包括 LLMs 在图像理解与视频生成上的阶段性结果。
我们将在 10 月 18 -19 日 QCon 上海站【AI 应用开发实践】专场，邀请各行业的优秀 AI 应用团队，分享在实际产品中成功应用计算机视觉、自然语言处理、个性化推荐、对话式交互等 AI 能力提升业务效率、优化用户体验的案例与最佳实践，共同探讨 AI 应用的未来发展方向。欲了解更多内容，可访问大会官网：https://qcon.infoq.cn/2024/shanghai/track/1721
以下为演讲实录（经 InfoQ 进行不改变原意的编辑整理

原文链接：字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法