标签:图像

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

新智元报道编辑:alan 【新智元导读】近日,一向画风精致的「苹果牌AI」,也推出了升级版的多模态大模型,从1B到30B参数,涵盖密集和专家混合模型,密集文本...
阅读原文

从图像到视频:浅谈Video Diffusion Models背后的底层原理

01前言最近一段时间恰好在推进手上的一个做视频生成相关的课‍‍题,也是对视频扩散模型(Video Diffusion Models)这一领域有了颇多认识。其中,视频扩散模型...
阅读原文

耗资数百万,六年磨一剑!上交开源首创图像合成神器libcom,下载量破万

新智元报道编辑:编辑部 HYZ 【新智元导读】研发6年,耗资数百万,六届学霸接力,上交牛力团队首创的图像合成工具箱libcom,论文、代码、数据集全开源。团队...
阅读原文

六年、六届学生接力,共铸上交大图像合成工具箱libcom

机器之心报道 机器之心编辑部arX‍iv:2106.14490v5如果你对 arXiv 的版本号有所了解,你就知道这篇论文已经更新了 4 次,现在已经来到了第 5 个版本。实际上,...
阅读原文

5.2k星!突破 OCR 困境的超级变革者来了;多语言医疗大模型开源,语料库和基准数据集已提供下载

在当今数字化进程飞速发展的时代,OCR(光学字符识别)技术虽已普及,但仍存在诸多瓶颈。传统 OCR 模型在面对复杂多变的情况时,识别准确率会大打折扣,且处...
阅读原文

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

新智元报道编辑:LRS 【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计...
阅读原文

最新AI生图模型Flux1.1刷屏!添加单反相机文件名获得超写实图像,网友:我分不清啊

梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI最新AI文生图模型Flux1.1,一夜刷屏。 只需一个简单技巧,就能去除图中的“AI味”,无论人物还是风景都能达到照片...
阅读原文

一键拯救废片!3个在线教程,实现光线重塑、表情迁移、模糊图像修复

作者:李宝珠 我们为大家整理了 3 款拯救废片神器及其一键部署教程,快速 get 精致朋友圈!您的国庆假期余额已不足 2 天!旅游或是归家探亲的小伙伴是不是都...
阅读原文

号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law

机器之心报道 编辑:佳琪、PandaMolmo,开源多模态模型正在发力!虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型...
阅读原文

ECCV2024 Oral | 第一视角下的动作图像生成,Meta等提出LEGO模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Meta 首个多模态大模型一键启动!首个多绣数据集上线,含超 30k 张图片

小扎在 Meta Connect 2024 主题演讲中宣布推出首个多模态大模型 Llama 3.2 vision!该模型有 11B 和 90B 两个版本,成为首批支持多模态任务的 Llama 系列模型...
阅读原文

中科院自动化所王金桥教授团队发布!利用无掩码扩散技术实现多功能时尚编辑 | 一作牛蕴方博士讲座预告

时尚图像编辑旨在根据给定的指令修改人物的外观。现有的方法通常需要辅助工具,如分割器和关键点提取器,缺乏灵活且统一的框架。此外,这些方法在能够处理的...
阅读原文

Nature :人类大脑如何编码和理解时间和经历的流动

来源:欧米伽未来研究所 “欧米伽未来研究所”关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技...
阅读原文

入选ECCV 2024!覆盖5.4w+图像,MIT提出医学图像分割通用模型ScribblePrompt,性能优于SAM

作者:哇塞 编辑:李姝,李宝珠 麻省理工学院计算机科学与人工智能实验室团队等,提出一种交互式生物医学图像分割通用模型 ScribblePrompt,支持不同注释方式...
阅读原文

Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了

新智元报道编辑:桃子 好困 【新智元导读】Meta首个理解图文的多模态Llama 3.2来了!这次,除了11B和90B两个基础版本,Meta还推出了仅有1B和3B轻量级版本,适...
阅读原文
13456748