标签:视觉
iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩
新智元报道编辑:桃子 【新智元导读】最近,来自UCSB和苹果的华人团队提出了MGIE,通过多模态模型引导图像精准编辑,可以10秒完成P图。几天前,库克在苹果电...
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
机器之心报道 编辑:蛋酱、陈萍拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在...
CV大神何恺明正在招收博士后和实习生!
夕小瑶科技说 原创作者 | 谢年年 想必大家都知道,CV大神何恺明将在24年加入MIT EECS(电子工程和计算机科学系),而就在近日,何恺明在个人主页上官宣招收研...
年龄两岁,教龄一年半:婴儿AI训练师登上Science
机器之心报道 编辑:娄佳琪、张倩只用 61 个小时的数据:人们终于证明了,利用当代 AI 工具,实现「真正的语言学习」是可行的。 在公开采访中,图灵奖得主 Ya...
赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
机器之心报道 机器之心编辑部去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)...
纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画
新智元报道编辑:LRS 【新智元导读】不用图像,只用文本就能训练出视觉概念表征?用写代码的方式读懂画面,形状、物体、场景都能懂!只会「看书」的大语言模...
ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3
机器之心报道 机器之心编辑部动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。 当前的大型语言模型如 GPT、LLaMA 等...
从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成
允中 发自 凹非寺量子位 | 公众号 QbitAI建立会做视频的世界模型,也能通过Transformer来实现了! 来自清华和极佳科技的研究人员联手,推出了全新的视频生成...
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
Vary-toy团队 投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了! 模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡...
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出
新智元报道编辑:编辑部 【新智元导读】多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费...
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
机器之心报道 编辑:泽南、蛋酱通义千问的图像推理能力,最近有了大幅提升。 2024 年,大模型领域要卷什么? 如果没有思路的话,不妨看看各家大厂都在押注什...
寒武纪与智象未来达成战略合作并完成大模型适配
寒武纪与智象未来签约仪式现场;左起:智象未来联合创始人、COO王科;智象未来创始人、CEO梅涛;寒武纪创始人、CEO陈天石;寒武纪联合创始人、执行总裁王在 ...
麻省理工研究表明AI不会像预期那样抢走那么多工作
点击上方蓝字关注我们“麻省理工学院的研究揭示,虽然人工智能在各行业快速发展,但其在成本效益上替代大多数工作的可行性尚不明确。通过深入研究计算机视觉领...
视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
机器之心专栏 机器之心编辑部Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限...
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类
新智元报道编辑:桃子 【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。Sam Alt...