标签:视觉

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

梦晨 发自 凹非寺量子位 | 公众号 QbitAI开源多模态SOTA模型再易主! Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。 CogVLM2...
阅读原文

时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3

新智元报道编辑:庸庸乔杨 【新智元导读】 5月14日,开源的大语言模型Falcon 2发布,性能超越Llama 3,消息登上了Hacker News热榜第一。「猎鹰」归来,开源宇...
阅读原文

HuggingFace教你怎样做出SOTA视觉模型

克雷西 发自 凹非寺量子位 | 公众号 QbitAI前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。 其他从业者在震撼之余,也再次开始思考怎...
阅读原文

李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动

梦晨 发自 凹非寺量子位 | 公众号 QbitAI斯坦福李飞飞创业后,首次揭秘新概念“空间智能”。 这不仅是她的创业方向,也是指引她的“北极星”,被她认为是“解决人...
阅读原文

OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!

北京时间 5 月 14 日凌晨,备受期待的 OpenAI 春季更新发布会上,CTO Mira Murati 宣布发布新的模型迭代版本——GPT-4o,o 代表「omnimodel」(全能模型),原...
阅读原文

GPT-4o 屠龙式震撼!多模态、实时交互、全员免费可用,丝滑语音交互的 ChatGPT 这把赢麻了

作者:李宝珠 & 十九 编辑:三羊 OpenAI 发布 GPT-4o,ChatGPT 基于GPT-4o 实现了语音交互,并在文本与视觉能力上有显著提升。从 5 月初爆出将在 9 日发...
阅读原文

GPT-4o深夜炸场!AI实时视频通话丝滑如人类,Plus功能免费可用,奥特曼:《她》来了

梦晨 克雷西 发自 凹非寺量子位 | 公众号 QbitAI不开玩笑,电影《她》真的来了。 OpenAI最新旗舰大模型GPT-4o,不仅免费可用,能力更是横跨听、看、说,丝滑...
阅读原文

跟着开源的InternVL,学习如何做自己的GPT-4V

随着人工智能生成内容(AIGC)的快速发展,多模态大型语言模型(MLLM)在理解和生成结合视觉与语言的信息方面展现出巨大潜力。然而,现有的开源MLLM与商业模...
阅读原文

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效

夕小瑶科技说 原创作者 | 谢年年构建多模态大模型时有很多有效的trick,如采用交叉注意力机制融合图像信息到语言模型中,或直接将图像隐藏状态序列与文本嵌入...
阅读原文

AI教母李飞飞首次创业!成立“空间智能”公司,已完成种子轮

明敏 克雷西 发自 凹非寺量子位 | 公众号 QbitAIAI教母李飞飞,创业了! 最新消息,斯坦福大学教授李飞飞正在建立一家AI公司,已完成种子轮融资。 公司方向定...
阅读原文

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

字节提出视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

文章转载自公众号:量子位,本文只做学术/技术分享,如有侵权,联系删文。 视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。 字节提出新基...
阅读原文

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

允中 发自 凹非寺量子位 | 公众号 QbitAI视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。 字节提出新基础模型——ViTamin,专为视觉语言时代...
阅读原文

西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

2024年2月,西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室(跨媒体知识融合与工程应用研究所)师生,在人工智能顶级期刊IEEE...
阅读原文
1789101120