标签:视觉
多模态大模型线上闭门会:通义实验室/港中文/港科大三位学者主讲ControlLLM、LLaMA-VID和mPLUG-DocOwl
智猩猩,由智东西公开课升级而来,定位硬科技讲解与服务平台,提供讲座、线上闭门会、公开课、在线研讨会、峰会等线上线下产品。 「线上闭门会」由智猩猩全新...
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
机器之心专栏 机器之心编辑部Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。近年来,大型语言模型如 GPT、GLM 和 LLaMA ...
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
陈厚伦 投稿量子位 | 公众号 QbitAI只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配...
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
新智元报道编辑:Aeneas 【新智元导读】GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替...
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
机器之心报道 机器之心编辑部大模型涌向移动端的浪潮愈演愈烈,终于有人把多模态大模型也搬到了移动端上。近日,美团、浙大等推出了能够在移动端部署的多模态...
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
作者 | 凌敏 近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Ground...
ViT-22B被取代了!商汤开源60亿视觉参数大模型InternVL刷爆多模态榜单!
论文链接: https://arxiv.org/abs/2312.14238开源代码: https://github.com/OpenGVLab/InternVL01引言大型语言模型(LLMs)在开放世界语言任务中展现出令人...
ImageNet的故事:李飞飞自传《我所见的世界》中文节选
新智元报道来源:Web3天空之城 编辑:好困 【新智元导读】《The Worlds I See》是李飞飞的第一人称叙述,它从内部记录了这个世纪的关键时刻,清晰并激动人心...
港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告
2023 年 12 月 6 日,谷歌发布了最新一代的通用人工智能大模型 Gemini,并报告在多项测试中取得了最先进的结果,甚至在 MMLU 测试中首次取得了超过人类专家的...
OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗...
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
机器之心专栏 机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最...
腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!
夕小瑶科技说 原创作者 | 智商掉了一地、Python多模态大型语言模型(MLLM)目前主要通过数字化的方式与信息世界进行交互,涉及自然语言处理、计算机视觉和多...
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
happy投稿量子位 | 公众号 QbitAI谷歌扳回一局! 在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示: 在37个视...
清华提出ViLa,揭秘 GPT-4V 在机器人视觉规划中的潜力
夕小瑶科技说 原创作者 | 智商掉了一地、兔子酱人类在面对简洁的语言指令时,可以根据上下文进行一连串的操作。对于“拿一罐可乐”的指令,若可乐近在眼前,下...