标签:视觉

港中文在读博士李彦玮:LLaMA-VID: 专注于长视频理解的视觉语言大模型

1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
阅读原文

视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24

新智元报道编辑:LRS 好困 【新智元导读】STKET框架将先验时空知识纳入多头交叉注意机制中,从而可以学习到更多有代表性的视觉关系表示,在视频图生成基准上...
阅读原文

阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型

1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 Control...
阅读原文

多模态大模型线上闭门会:通义实验室/港中文/港科大三位学者主讲ControlLLM、LLaMA-VID和mPLUG-DocOwl

智猩猩,由智东西公开课升级而来,定位硬科技讲解与服务平台,提供讲座、线上闭门会、公开课、在线研讨会、峰会等线上线下产品。 「线上闭门会」由智猩猩全新...
阅读原文

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

机器之心专栏 机器之心编辑部Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。近年来,大型语言模型如 GPT、GLM 和 LLaMA ...
阅读原文

一句话精准视频片段定位!清华新方法拿下SOTA|已开源

陈厚伦 投稿量子位 | 公众号 QbitAI只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配...
阅读原文

GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发

新智元报道编辑:Aeneas 【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替...
阅读原文

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

机器之心报道 机器之心编辑部大模型涌向移动端的浪潮愈演愈烈,终于有人把多模态大模型也搬到了移动端上。近日,美团、浙大等推出了能够在移动端部署的多模态...
阅读原文

清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力

作者 | 凌敏 近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Ground...
阅读原文

ViT-22B被取代了!商汤开源60亿视觉参数大模型InternVL刷爆多模态榜单!

论文链接: https://arxiv.org/abs/2312.14238开源代码: https://github.com/OpenGVLab/InternVL01引言大型语言模型(LLMs)在开放世界语言任务中展现出令人...
阅读原文

ImageNet的故事:李飞飞自传《我所见的世界》中文节选

新智元报道来源:Web3天空之城 编辑:好困 【新智元导读】《The Worlds I See》是李飞飞的第一人称叙述,它从内部记录了这个世纪的关键时刻,清晰并激动人心...
阅读原文

港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告

2023 年 12 月 6 日,谷歌发布了最新一代的通用人工智能大模型 Gemini,并报告在多项测试中取得了最先进的结果,甚至在 MMLU 测试中首次取得了超过人类专家的...
阅读原文

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!

国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗...
阅读原文

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

机器之心专栏 机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最...
阅读原文

腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!

夕小瑶科技说 原创作者 | 智商掉了一地、Python多模态大型语言模型(MLLM)目前主要通过数字化的方式与信息世界进行交互,涉及自然语言处理、计算机视觉和多...
阅读原文
191011121317