视觉 - 第 2 页

导航、采矿、建造，北大这个新智能体把《我的世界》玩透了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

允中发自凹非寺量子位 | 公众号 QbitAI仅需1块80G显卡，大模型理解小时级超长视频。智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等...

阅读原文

AIGC动态

2年前 (2024)

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

新智元报道编辑：编辑部 HYZ 【新智元导读】长视频理解迎来新纪元！智源联手国内多所顶尖高校，推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时...

阅读原文

AIGC动态

2年前 (2024)

百度又放大招！视觉生成模型 Hallo2 或将落地数字人等场景

作者 | 华卫近日，百度联合复旦大学等发布 Hallo2，一个可以生成长达数小时且分辨率为 4K 的人物动画的视觉模型。Hallo2 目前已经在 GitHub 平台开源，供全...

阅读原文

AIGC动态

2年前 (2024)

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

Mono-InternVL团队投稿量子位 | 公众号 QbitAI原生多模态大模型性能瓶颈，迎来新突破！上海AI Lab代季峰老师团队，提出了全新的原生多模态大模型Mono-Inter...

阅读原文

AIGC动态

2年前 (2024)

你和ChatGPT理解语言的方式一样吗？从表征对齐角度比较人工神经网络与生物大脑

导语ChatGPT 理解语言的方式和人类一样吗？卷积神经网络和人脑视觉系统的表征有哪些类似之处？不同信息处理系统之间的差异要如何定量刻画？本文介绍了表征对...

阅读原文

AIGC动态

2年前 (2024)

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

新智元报道编辑：乔杨【新智元导读】在NLP领域，研究者们已经充分认识并认可了表征学习的重要性，那么视觉领域的生成模型呢？最近，谢赛宁团队发表的一篇研...

阅读原文

AIGC动态

2年前 (2024)

DeepSeek新作Janus：解耦视觉编码，引领多模态理解与生成统一新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

搞定图像+文本+视频大一统！智源发布多模态世界模型Emu3：下一个token预测直通AGI

下一个token预测，通向多模态AGI。 OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点：只要能够非常好的预测下一个token，就能帮助人类达...

阅读原文

AIGC动态

2年前 (2024)

智源 Emu3 证明多模态模型新范式：只需基于下一个 token 预测

只需基于下一个 token 预测，智源 Emu3 重新定义多模态模型。OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点：只要能够非常好的预测下一...

阅读原文

AIGC动态

2年前 (2024)

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

新智元报道编辑：编辑部 HYZ 【新智元导读】最近，Ilya向黄仁勋描述「只要能预测下一个token，就能达到AGI」的视频再次爆火全网，他的预言刚刚竟被证实？智源...

阅读原文

AIGC动态

2年前 (2024)

PPT 满屏文字？救星来了！这款神器帮你一键生成专业插图！

都说一图胜千言，但你是否经常遇到这样的场景：工作汇报、 PPT花了你大半天时间，上面的文字仍然堆积如山，网上又很难找到贴合你内容的图片，而自己设计一个...

阅读原文

AIGC动态

2年前 (2024)

Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

梦晨发自凹非寺量子位 | 公众号 QbitAIOpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点：只要能够非常好的预测下一个token，就能帮助...

阅读原文

AIGC动态

2年前 (2024)

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

机器之心发布机器之心编辑部OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点：只要能够非常好的预测下一个 token，就能帮助人类达到...

阅读原文

AIGC动态

2年前 (2024)

OCR-Omni来了，字节&华师统一多模态文字理解与生成 | NeurIPS2024

TextHarmony团队投稿量子位 | 公众号 QbitAI多模态生成新突破，字节&华师团队打造TextHarmony，在单一模型架构中实现模态生成的统一，并入选NeurIPS 202...

阅读原文

AIGC动态

2年前 (2024)

标签：视觉