标签:视觉
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力
夕小瑶科技说 原创作者 | 芒果 引言:思维可视化技术的探索此项研究提出了一种名为思维可视化(VoT)的技术,旨在通过可视化大型语言模型(LLMs)的推理过程来增...
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
新智元报道编辑:桃子 润 【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。几天...
李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席
机器之心报道 编辑:蛋酱「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」 知名 AI 科学家...
马斯克放弃自动驾驶?特斯拉CV负责人被曝离职,马斯克急澄清
新智元报道编辑:好困 Aeneas 【新智元导读】就在刚刚,特斯拉CV负责人Ethan Knight被曝已经离职,转投xAI。网友纷纷猜测:马斯克这是要放弃特斯拉FSD了?他...
AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?
聚焦行业大模型,企业共创抵达“最后一公里”。 作者|三北 编辑|漠影 智东西4月2日报道,当前,大模型技术正在加速渗透到行业数字化进程中,赋能新的应用场景,...
吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的子弹都能数清楚
白交 发自 凹非寺量子位 | 公众号 QbitAI还记得黑客帝国经典的子弹时间吗? IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~ 而面对难倒一众大模型...
极越想打一场“翻身仗” |甲子光年
极越CEO夏一平:三电技术走到尽头,要赢得市场只能看智驾。作者|张麟 编辑|王博 极越01上市后,极越CEO夏一平面临了极大的挑战。 盖世汽车统计数据显示,20...
超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源
夕小瑶科技说 原创作者 | 任同学随着AI从有限数据迈向真实世界,极速增长的数据规模不仅赋予了模型令人惊喜的能力,也给多模态模型提供了更多的可能性。OpenA...
在 ChatGPT 出现之前,李飞飞的ImageNet如何奠定了人工智能的技术革命?
进入 2024 年,人工智能的发展速度似乎已经快过了时间的更迭。 2 月,OpenAI 发布视频生成模型 Sora,就像一年多前才发布的 ChatGPT 一样,Sora 被外界认为是...
刘洺堉:用于可视化内容生成的 Edify 模型 |NVIDIA GTC24 大会预告
3月18-21日,NVIDIA GTC 2024 大会即将举行! 与由业界大咖、开发人员、研究人员和商业策略专家组成的梦之队交流,共同塑造 AI 和加速计算的未来。从备受期待...
今日arXiv最热NLP大模型论文:逆向解析Sora背后的秘密,谈AI视频的机遇与挑战
夕小瑶科技说 原创作者 | Tscom 引言:Sora——AI在视频生成领域的新篇章随着AI技术的飞速发展,人工智能已在视频生成领域翻开新的篇章。自2022年11月ChatGPT问...
专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
如何利用计算机视觉技术,解析手语的奥秘?作者|吴彤 编辑|麦广炜 在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。 近...
提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024
机器之心专栏 机器之心编辑部虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。 为了达到这个目的,在传统...