标签:视觉

OpenAI 开发者大会!实时语音功能有API了,GPT-4o支持多模态微调,上下文cache功能上线

夕小瑶科技说 原创作者 | 付奶茶家人们!十一假期第1天, OpenAI一年一度的开发者大会又来了惹!今年的开发者大会分成三部分分别在美国、英国、新加坡三个地...
阅读原文

奥特曼:自认比o1聪明请举手🤚到o2还这么想么🤨?|OpenAI开发者日

梦晨 发自 凹非寺量子位 | 公众号 QbitAI奥特曼:认为自己比o1更聪明的请举手。(台下一些人举手)奥特曼:到了o2你们还会这么想么?(汗流浃背了) 这一幕,...
阅读原文

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

从BLIP-2到Qwen2-VL,多模态大模型的技术点总结

开讲预约导读原文来自知乎,作者为jewellery,标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Q...
阅读原文

詹姆斯·卡梅隆:那位彻底改变电影的导演,如何用 AI 续写传奇?

点击上方蓝字关注我们“著名导演詹姆斯·卡梅隆将加入人工智能公司Stability AI的董事会,助力该公司在生成AI与视觉特效结合的前沿探索。这一合作引发了好莱坞...
阅读原文

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

新智元报道编辑:LRS 【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了L...
阅读原文

新SOTA来了:国产9B模型多项得分超4o-mini,中国出海电商已经用上了

茕茕 发自 凹非寺量子位 | 公众号 QbitAI阿里开源,又拿第一了。 这次是在多模态领域: 就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6。在多模态权威综合...
阅读原文

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

新智元报道编辑:LRS 【新智元导读】MMMU-Pro通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新...
阅读原文

阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%

mPLUG团队 投稿量子位 | 公众号 QbitAI高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。 最新多模态大模型mPLUG-DocOwl 2,仅以324个视觉token表示单...
阅读原文

Mistral多模态大模型来了!120亿参数,原生支持任意大小/数量图像,公司估值已达420亿

明敏 发自 凹非寺量子位 | 公众号 QbitAIMistral的多模态大模型来了! Pixtral 12B正式发布,同时具备语言和视觉处理能力。 它建立在文本模型Nemo 12B基础上...
阅读原文

Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手

点击上方蓝字关注我们“法国 AI 初创公司 Mistral 发布其首款多模态模型 Pixtral 12B,挑战 OpenAI 和 Anthropic 等竞争对手。法国初创公司 Mistral AI 正式发...
阅读原文

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾|冯佳时 编辑 |蔡芳芳 策划 | AICon 全球人工智能开发与应用大会 近年来,大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而,LLMs 在...
阅读原文

视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law

梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型时代,有个大家普遍焦虑的问题:如何落地?往哪落地? 聚光灯下最耀眼的OpenAI,最近也先被曝出资金告急,后又寻...
阅读原文

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文
1234519