标签：视觉

Mistral多模态大模型来了！120亿参数，原生支持任意大小/数量图像，公司估值已达420亿

明敏发自凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了！ Pixtral 12B正式发布，同时具备语言和视觉处理能力。它建立在文本模型Nemo 12B基础上...

阅读原文

AIGC动态

2年前 (2024)

Mistral 发布首款多模态模型，挑战 OpenAI等竞争对手

点击上方蓝字关注我们“法国 AI 初创公司 Mistral 发布其首款多模态模型 Pixtral 12B，挑战 OpenAI 和 Anthropic 等竞争对手。法国初创公司 Mistral AI 正式发...

阅读原文

AIGC动态

2年前 (2024)

字节跳动冯佳时：大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾｜冯佳时编辑｜蔡芳芳策划｜ AICon 全球人工智能开发与应用大会近年来，大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而，LLMs 在...

阅读原文

AIGC动态

2年前 (2024)

视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law

梦晨发自凹非寺量子位 | 公众号 QbitAI大模型时代，有个大家普遍焦虑的问题：如何落地?往哪落地? 聚光灯下最耀眼的OpenAI，最近也先被曝出资金告急，后又寻...

阅读原文

AIGC动态

2年前 (2024)

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

3D 视觉派：斯坦福具身智能人物关系图

苏昊、黄其兴、祁芮中台、卢策吾、朱玉可、王鹤、王世全、弋力、莫凯淳……他们从 3D 视觉出发，改写了机器人的故事走向。作者 | 赖文昕陈彩娴编辑 | 陈彩娴2...

阅读原文

AIGC动态

2年前 (2024)

CVPR'24 Navsim挑战赛冠军方案！NVIDIA Hydra-MDP：端到端自动驾驶规划新范式 | 公开课预告

端到端自动驾驶目前逐渐被认为是实现完全自动驾驶的最优解，受到了学术界和产业界的广泛关注。然而，最近的研究表明，近年来涌现的不少端到端自动驾驶模型，...

阅读原文

AIGC动态

2年前 (2024)

通义千问开源视觉语言模型 Qwen2-VL，可理解 20 分钟以上视频

整理 | 褚杏娟 2023 年 8 月，通义千问开源第一代视觉语言理解模型 Qwen-VL，成为开源社区最受欢迎的多模态模型之一。短短一年内，模型下载量突破 1000 万次...

阅读原文

AIGC动态

2年前 (2024)

阿里重磅开源Qwen2-VL：能理解超20分钟视频，媲美GPT-4o！

生成式AI时代最火AI芯片峰会下月来袭！9月6-7日，智猩猩发起主办的2024全球AI芯片峰会将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯...

阅读原文

AIGC动态

2年前 (2024)

首篇「虚拟现实+人工智能」综述！浙大、港中深等发布AI医疗最新报告

新智元报道编辑：LRST 好困【新智元导读】本文对AI增强的VR在医疗应用中的技术细节、工作流程和下游应用进行了全面审视，并提出了一个系统性的分类方法，将...

阅读原文

AIGC动态

2年前 (2024)

4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

阿里mPLUG团队投稿量子位 | 公众号 QbitAI4秒看完2小时电影，阿里团队新成果正式亮相—— 推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。具体...

阅读原文

AIGC动态

2年前 (2024)

想搞懂李飞飞的创业方向？这里有一份机器人+3D的论文清单

机器之心报道编辑：张倩80 多篇论文搞懂「机器人+3D」研究进展。前段时间，多家媒体报道称，著名 AI 学者、斯坦福大学教授李飞飞的创业公司 World Labs 在...

阅读原文

AIGC动态

2年前 (2024)

视觉如何模型统一？牛津大学Shuyang Sun博士论文《迈向统一视觉感知》全面阐述

来源：专知来自牛津大学Shuyang (Kevin) Sun博士论文《Towards Unified Visual Perception 》值得关注！探讨统一视觉感知系统的构建。 Shuyang (Kevin) Sun ...

阅读原文

AIGC动态

2年前 (2024)

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

新智元报道编辑：乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足...

阅读原文

AIGC动态

2年前 (2024)

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

对标 GPT-4V，面壁让实时视频理解成功“跑”在端侧。作者 | 朱可轩编辑 | 陈彩娴真实世界的视觉信息是流动的，而在处理流动性的视觉信息上，端侧视频理解具有...

阅读原文

AIGC动态

2年前 (2024)

1 2 345 6…20