标签:图像
Sora 团队负责人 Aditya Ramesh 对话谢赛宁丨压缩一切!视觉与语言模态的融合
大数据文摘受权转载自智源社区 2024 年 6 月 14 日,一年一度的智源大会又迎来重磅嘉宾。 当红视频生成大模型「Sora」团队的负责人Aditya Ramesh在2024智源大...
2024 Meet AI Compiler 北京线下聚会定档!千万级指令微调数据集 InfinityInstruct 开源
高质量的指令数据是训练和优化大语言模型不可或缺的资源,是提升模型性能的基石。近日,北京智源人工智能研究院发布了千万级高质量指令微调数据集开源项目 In...
大脑是如何工作的?谷歌和哈佛的研究人员用AI把它画出来了|NIO Capital 未来生活
Google Research & Lichtman Lab/Harvard University ©️不久前,谷歌和哈佛大学的研究人员发布了一组人类大脑及其神经网络的详细图像,这个图像被称为迄...
AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品
AutoStudio团队 投稿量子位 | 公众号 QbitAI让AI画漫画角色保持一致的新研究来了! 创作的连环画效果belike: 频繁切换主体、人物之间复杂的互动也能保持角色...
InstaFlow一作刘星超:利用直线概率流加速Stable Diffusion的训练推理 | 讲座预告
「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。 AI新青年是加速人工...
最近值得关注的 AI 产品:比肩 Sora 的 Luma、SD3 开源、MJ 新功能
AI一天,人间一年,短短一晚上,三大重量级厂商都迎来了史诗级的更新:而且每个产品效果都非常炸裂,对于AI领域从业者可谓是又一个春节; 1、Luma 发布了类似...
一步文生图大模型还能“更小更快”,MixDQ量化方法无损“瘦身”扩散模型3倍,提速1.5倍
大数据文摘授权转载自将门创投 作者:赵天辰 我们提出了MixDQ,一种面向少步扩散模型的混合比特量化方案。 MixDQ分析定位了“少步扩散模型量化”的独特问题,并...
喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德
整理 | 华卫、核子可乐 6 月 12 日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关...
刚刚!Stable Diffusion 3 重磅开源,超全图像生成必备训练数据集、教程汇总
Stability AI 已经正式开源 Stable Diffusion 3(简称 SD3)!SD3 是一个图像生成模型,只要给定一段描述性的文字,就能够创造出与之匹配的视觉作品。下图就...
复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V
夕小瑶科技说 原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。...
候选CVPR 2024最佳论文!深圳大手香港理工发布MemSAM:将 「分割一切」模型用于医学视频分割
作者:梅菜 编辑:李宝珠,三羊 深圳大学计算机与软件学院和香港理工大学智能健康研究中心联合提出了一种新颖的超声心动图视频分割模型 MemSAM,与现有模型相...
苹果AI一夜颠覆所有!Siri史诗级进化,内挂ChatGPT-4o,奥特曼来了,马斯克怒了
刚刚,苹果智能诞生!AI颠覆所有App和OS体验。 作者|智东西编辑部 刚刚,苹果AI,正式交卷! 智东西美国加州库比提诺苹果总部WWDC24现场报道,今天,苹果构建...
苹果智能炸裂登场:直接GPT-4o加持,全家桶都上生成式AI,Siri脱胎换骨
机器之心报道 机器之心编辑部还有史诗级更新:iPhone 加通话录音,iPad 加计算器。不止 Siri 或 iPhone,整个苹果,向前迈进了一大步。 北京时间 6 月 11 日...
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
机器之心报道 编辑:Panda近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用...
CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...