标签:图像
Stable Diffusion 3.5最强模型全家桶来了,三个型号
就在刚刚,Stability AI发布了自家最强的模型Stable Diffusion 3.5,而且是一个全家桶,包含三个版本。 链接:https://huggingface.co/stabilityai Stable Di...
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
入选ECCV 2024!浙江大合微软亚洲研究院提出统一医学图像预训练框架UniMedI,打破医学数据异构化藩篱
作者:哇塞 编辑:十九,李宝珠 浙江大学联合微软亚洲研究院提出了一种全新的统一医学图像预训练框架 UniMedI。它利用诊断报告作为公共语义空间,可为不同模...
ECCV 2024收录!旷视提出无需训练的更高分辨率图像生成框架HiDiffusion | 一作、高级研究员张慎主讲预告
在图像生成领域,高分辨率图像的生成一直是一个具有挑战性的工作。Stable Diffusion等强大的预训练扩散模型目前可以生成1024x1024像素的高质量图像。但生成更...
AI 已经医学影像及癌症检测中超越人类专家
随着人工智能(AI)技术的迅速发展,医疗行业正经历一场深刻的变革。最新的研究成果显示,AI不仅在疾病的检测和诊断中展现出了超乎想象的潜力,还在一些领域...
搞定图像+文本+视频大一统!智源发布多模态世界模型Emu3:下一个token预测直通AGI
下一个token预测,通向多模态AGI。 OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达...
智源 Emu3 证明多模态模型新范式:只需基于下一个 token 预测
只需基于下一个 token 预测,智源 Emu3 重新定义多模态模型。OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一...
Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散
新智元报道编辑:编辑部 HYZ 【新智元导读】最近,Ilya向黄仁勋描述「只要能预测下一个token,就能达到AGI」的视频再次爆火全网,他的预言刚刚竟被证实?智源...
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
梦晨 发自 凹非寺量子位 | 公众号 QbitAIOpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点: 只要能够非常好的预测下一个token,就能帮助...
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式
机器之心发布 机器之心编辑部OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到...
OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024
TextHarmony团队 投稿量子位 | 公众号 QbitAI多模态生成新突破,字节&华师团队打造TextHarmony,在单一模型架构中实现模态生成的统一,并入选NeurIPS 202...
比Flux更强大的文生图模型来了!秘诀是“集百家之长”
IterComp团队 投稿量子位 | 公众号 QbitAI打造更强大文生图模型新思路有—— 面对Flux、stable diffusion、Omost等爆火模型,有人开始主打“集各家所长”。 具体...
4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,速度秒杀FLUX
新智元报道编辑:桃子 好困 【新智元导读】一台4090笔记本,秒生1K质量高清图。英伟达联合MIT清华团队提出的Sana架构,得益于核心架构创新,具备了惊人的图像...
性能不输SOTA,计算量仅DiT一半!T2X任务新范式来了 | 中山大学&360 AI Research
Qihoo-T2X团队 投稿量子位 | 公众号 QbitAI性能不输SOTA模型,计算开销却更低了—— 中山大学和360 AI Research联合推出PT-DiT,同参数规模下,计算量仅为DiT的...
学生最伟大的新研究!书里的斜坡实验、透镜变化规律用AI都动起来了
夕小瑶科技说 分享来源 | 机器之心原来物理还能这么学。 学习物理,不同的人自然有不同的经历。一些人觉得物理课简单直观,但另一些人却认为它抽象又反直觉,...