标签:视觉
国产多模态大模型狂飙!颜水成挂帅开源Vitron,图像/视频模型割裂问题
未来可探索三大方向:系统架构、用户交互性、模态能力。 编辑|ZeR0 奔向通用人工智能,大模型又迈出一大步。 智东西4月25日报道,近日,由颜水成教授带队,昆...
埃隆·马斯克的人造视力能看到啥?
点击上方蓝字世界科学,再点右上角三颗痣 设为星标,从此你的世界多点科学~现年56岁的美国人布莱恩·巴萨德(Brian Bussard)曾失去视力,如今他大脑内有25块...
颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑
新智元报道编辑:LRS 【新智元导读】颜水成团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,持从视觉理解到视觉生成、从低层次到高层次的一系列视觉...
首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力
夕小瑶科技说 原创作者 | 芒果 引言:思维可视化技术的探索此项研究提出了一种名为思维可视化(VoT)的技术,旨在通过可视化大型语言模型(LLMs)的推理过程来增...
MLLM真能看懂数学吗?MathVerse来了次摸底测评,放出当天登热榜
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝
新智元报道编辑:桃子 润 【新智元导读】秒懂视频的AI诞生了!KAUST和哈佛大学研究团队提出MiniGPT4-Video框架,不仅能理解复杂视频,甚至还能作诗配文。几天...
李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席
机器之心报道 编辑:蛋酱「这是自 Karpathy 和我 2015 年启动这门课程以来的第 9 个年头,这是人工智能和计算机视觉令人难以置信的十年!」 知名 AI 科学家...
马斯克放弃自动驾驶?特斯拉CV负责人被曝离职,马斯克急澄清
新智元报道编辑:好困 Aeneas 【新智元导读】就在刚刚,特斯拉CV负责人Ethan Knight被曝已经离职,转投xAI。网友纷纷猜测:马斯克这是要放弃特斯拉FSD了?他...
AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?
聚焦行业大模型,企业共创抵达“最后一公里”。 作者|三北 编辑|漠影 智东西4月2日报道,当前,大模型技术正在加速渗透到行业数字化进程中,赋能新的应用场景,...
吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompt,连黑客帝国的都能数清楚
白交 发自 凹非寺量子位 | 公众号 QbitAI还记得黑客帝国经典的子弹时间吗? IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~ 而面对难倒一众大模型...
极越想打一场“翻身仗” |甲子光年
极越CEO夏一平:三电技术走到尽头,要赢得市场只能看智驾。作者|张麟 编辑|王博 极越01上市后,极越CEO夏一平面临了极大的挑战。 盖世汽车统计数据显示,20...
超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源
夕小瑶科技说 原创作者 | 任同学随着AI从有限数据迈向真实世界,极速增长的数据规模不仅赋予了模型令人惊喜的能力,也给多模态模型提供了更多的可能性。OpenA...
在 ChatGPT 出现之前,李飞飞的ImageNet如何奠定了人工智能的技术?
进入 2024 年,人工智能的发展速度似乎已经快过了时间的更迭。 2 月,OpenAI 发布视频生成模型 Sora,就像一年多前才发布的 ChatGPT 一样,Sora 被外界认为是...
刘洺堉:用于可视化内容生成的 Edify 模型 |NVIDIA GTC24 大会预告
3月18-21日,NVIDIA GTC 2024 大会即将举行! 与由业界大咖、开发人员、研究人员和商业策略专家组成的梦之队交流,共同塑造 AI 和加速计算的未来。从备受期待...