标签：视觉

多模态大模型线上闭门会：通义实验室/港中文/港科大三位学者主讲ControlLLM、LLaMA-VID和mPLUG-DocOwl

智猩猩，由智东西公开课升级而来，定位硬科技讲解与服务平台，提供讲座、线上闭门会、公开课、在线研讨会、峰会等线上线下产品。「线上闭门会」由智猩猩全新...

阅读原文

AIGC动态

2年前 (2024)

AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

机器之心专栏机器之心编辑部Vista-LLaMA 在处理长视频内容方面的显著优势，为视频分析领域带来了新的解决框架。近年来，大型语言模型如 GPT、GLM 和 LLaMA ...

阅读原文

AIGC动态

2年前 (2024)

一句话精准视频片段定位！清华新方法拿下SOTA｜已开源

陈厚伦投稿量子位 | 公众号 QbitAI只需一句话描述，就能在一大段视频中定位到对应片段！比如描述“一个人一边下楼梯一边喝水”，通过视频画面和脚步声的匹配...

阅读原文

AIGC动态

2年前 (2024)

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

新智元报道编辑：Aeneas 【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替...

阅读原文

AIGC动态

2年前 (2024)

骁龙888实时运行，美团、浙大等打造全流程移动端多模态大模型MobileVLM

机器之心报道机器之心编辑部大模型涌向移动端的浪潮愈演愈烈，终于有人把多模态大模型也搬到了移动端上。近日，美团、浙大等推出了能够在移动端部署的多模态...

阅读原文

AIGC动态

2年前 (2024)

清华大学与智谱 AI 联合推出 CogAgent：基于多模态大模型的 GUI Agent，具备视觉问答、视觉定位等能力

作者 | 凌敏近日，清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent，CogAgent 是一个通用的视觉理解大模型，具备视觉问答、视觉定位（Ground...

阅读原文

AIGC动态

2年前 (2024)

ViT-22B被取代了！商汤开源60亿视觉参数大模型InternVL刷爆多模态榜单！

论文链接： https://arxiv.org/abs/2312.14238开源代码： https://github.com/OpenGVLab/InternVL01引言大型语言模型（LLMs）在开放世界语言任务中展现出令人...

阅读原文

AIGC动态

2年前 (2024)

ImageNet的故事：李飞飞自传《我所见的世界》中文节选

新智元报道来源：Web3天空之城编辑：好困【新智元导读】《The Worlds I See》是李飞飞的第一人称叙述，它从内部记录了这个世纪的关键时刻，清晰并激动人心...

阅读原文

AIGC动态

2年前 (2023)

港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告

2023 年 12 月 6 日，谷歌发布了最新一代的通用人工智能大模型 Gemini，并报告在多项测试中取得了最先进的结果，甚至在 MMLU 测试中首次取得了超过人类专家的...

阅读原文

AIGC动态

2年前 (2023)

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

国科大&旷视团队投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式？以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗...

阅读原文

AIGC动态

2年前 (2023)

阿里mPLUG-Owl新升级，鱼与熊掌兼得，模态协同实现MLLM新SOTA

机器之心专栏机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力，推动了多模态大模型（MLLM）快速发展，MLLM 成为了现在业界最...

阅读原文

AIGC动态

2年前 (2023)

腾讯发布实体任务规划基准，GPT-4V也频频出错！迈向大模型与物理世界交互！

夕小瑶科技说原创作者 | 智商掉了一地、Python多模态大型语言模型（MLLM）目前主要通过数字化的方式与信息世界进行交互，涉及自然语言处理、计算机视觉和多...

阅读原文

AIGC动态

2年前 (2023)

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

happy投稿量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视...

阅读原文

AIGC动态

2年前 (2023)

再见，汤晓鸥

一位伟大而丰盈的灵魂离去了。▲CVPR 2009最佳论文奖获奖论文截图这是中国人工智能学术界一篇具有里程碑领域的论文——2009年，世界计算机视觉顶级学术会CVPR创...

阅读原文

AIGC动态

2年前 (2023)

清华提出ViLa，揭秘 GPT-4V 在机器人视觉规划中的潜力

夕小瑶科技说原创作者 | 智商掉了一地、兔子酱人类在面对简洁的语言指令时，可以根据上下文进行一连串的操作。对于“拿一罐可乐”的指令，若可乐近在眼前，下...

阅读原文

AIGC动态

2年前 (2023)

1…12 131415 16…20