标签:视觉
导航、采矿、建造,北大这个新智能体把《我的世界》玩透了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源
允中 发自 凹非寺量子位 | 公众号 QbitAI仅需1块80G显卡,大模型理解小时级超长视频。 智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等...
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
新智元报道编辑:编辑部 HYZ 【新智元导读】长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时...
百度又放大招!视觉生成模型 Hallo2 或将落地数字人等场景
作者 | 华卫 近日,百度联合复旦大学等发布 Hallo2,一个可以生成长达数小时且分辨率为 4K 的人物动画的视觉模型。Hallo2 目前已经在 GitHub 平台开源,供全...
开源模型突破原生多模态大模型性能瓶颈,上海AI Lab代季峰团队出品
Mono-InternVL团队 投稿量子位 | 公众号 QbitAI原生多模态大模型性能瓶颈,迎来新突破! 上海AI Lab代季峰老师团队,提出了全新的原生多模态大模型Mono-Inter...
你和ChatGPT理解语言的方式一样吗?从表征对齐角度比较人工神经网络与生物大脑
导语ChatGPT 理解语言的方式和人类一样吗?卷积神经网络和人脑视觉系统的表征有哪些类似之处?不同信息处理系统之间的差异要如何定量刻画?本文介绍了表征对...
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
新智元报道编辑:乔杨 【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研...
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
搞定图像+文本+视频大一统!智源发布多模态世界模型Emu3:下一个token预测直通AGI
下一个token预测,通向多模态AGI。 OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达...
智源 Emu3 证明多模态模型新范式:只需基于下一个 token 预测
只需基于下一个 token 预测,智源 Emu3 重新定义多模态模型。OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一...
Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散
新智元报道编辑:编辑部 HYZ 【新智元导读】最近,Ilya向黄仁勋描述「只要能预测下一个token,就能达到AGI」的视频再次爆火全网,他的预言刚刚竟被证实?智源...
PPT 满屏文字? 救星来了!这款神器帮你一键生成专业插图!
都说一图胜千言,但你是否经常遇到这样的场景:工作汇报、 PPT花了你大半天时间,上面的文字仍然堆积如山,网上又很难找到贴合你内容的图片,而自己设计一个...
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
梦晨 发自 凹非寺量子位 | 公众号 QbitAIOpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点: 只要能够非常好的预测下一个token,就能帮助...
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式
机器之心发布 机器之心编辑部OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到...
OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024
TextHarmony团队 投稿量子位 | 公众号 QbitAI多模态生成新突破,字节&华师团队打造TextHarmony,在单一模型架构中实现模态生成的统一,并入选NeurIPS 202...