标签:视觉

Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

明敏 发自 凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了! Pixtral 12B正式发布,同时具备语言和视觉处理能力。 它建立在文本模型Nemo 12B基础上...
阅读原文

Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手

点击上方蓝字关注我们“法国 AI 初创公司 Mistral 发布其首款多模态模型 Pixtral 12B,挑战 OpenAI 和 Anthropic 等竞争对手。法国初创公司 Mistral AI 正式发...
阅读原文

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾|冯佳时 编辑 |蔡芳芳 策划 | AICon 全球人工智能开发与应用大会 近年来,大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而,LLMs 在...
阅读原文

视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law

梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型时代,有个大家普遍焦虑的问题:如何落地?往哪落地? 聚光灯下最耀眼的OpenAI,最近也先被曝出资金告急,后又寻...
阅读原文

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

3D 视觉派:斯坦福具身智能人物关系图

苏昊、黄其兴、祁芮中台、卢策吾、朱玉可、王鹤、王世全、弋力、莫凯淳……他们从 3D 视觉出发,改写了机器人的故事走向。作者 | 赖文昕 陈彩娴 编辑 | 陈彩娴2...
阅读原文

CVPR'24 Navsim挑战赛冠军方案!NVIDIA Hydra-MDP:端到端自动驾驶规划新范式 | 公开课预告

端到端自动驾驶目前逐渐被认为是实现完全自动驾驶的最优解,受到了学术界和产业界的广泛关注。然而,最近的研究表明,近年来涌现的不少端到端自动驾驶模型,...
阅读原文

通义千问开源视觉语言模型 Qwen2-VL,可理解 20 分钟以上视频

整理 | 褚杏娟 2023 年 8 月,通义千问开源第一代视觉语言理解模型 Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破 1000 万次...
阅读原文

阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!

生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...
阅读原文

首篇「虚拟现实+人工智能」综述!浙大、港中深等发布AI医疗最新报告

新智元报道编辑:LRST 好困 【新智元导读】本文对AI增强的VR在医疗应用中的技术细节、工作流程和下游应用进行了全面审视,并提出了一个系统性的分类方法,将...
阅读原文

4秒看完2小时电影!阿里发布通用多模态大模型mPLUG-Owl3 | 开源

阿里mPLUG团队 投稿量子位 | 公众号 QbitAI4秒看完2小时电影,阿里团队新成果正式亮相—— 推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。 具体...
阅读原文

想搞懂李飞飞的创业方向?这里有一份机器人+3D的论文清单

机器之心报道 编辑:张倩80 多篇论文搞懂「机器人+3D」研究进展。前段时间,多家媒体报道称 ,著名 AI 学者、斯坦福大学教授李飞飞的创业公司 World Labs 在...
阅读原文

视觉如何模型统一?牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

来源:专知 来自牛津大学Shuyang (Kevin) Sun博士论文《Towards Unified Visual Perception 》值得关注!探讨统一视觉感知系统的构建。 Shuyang (Kevin) Sun ...
阅读原文

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

新智元报道编辑:乔杨 【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足...
阅读原文

让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

对标 GPT-4V,面壁让实时视频理解成功“跑”在端侧。作者 | 朱可轩 编辑 | 陈彩娴 真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有...
阅读原文
12345620