标签：图像

苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

新智元报道编辑：alan 【新智元导读】近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型，从1B到30B参数，涵盖密集和专家混合模型，密集文本...

阅读原文

AIGC动态

2年前 (2024)

从图像到视频：浅谈Video Diffusion Models背后的底层原理

01前言最近一段时间恰好在推进手上的一个做视频生成相关的课‍‍题，也是对视频扩散模型（Video Diffusion Models）这一领域有了颇多认识。其中，视频扩散模型...

阅读原文

AIGC动态

2年前 (2024)

耗资数百万，六年磨一剑！上交开源首创图像合成神器libcom，下载量破万

新智元报道编辑：编辑部 HYZ 【新智元导读】研发6年，耗资数百万，六届学霸接力，上交牛力团队首创的图像合成工具箱libcom，论文、代码、数据集全开源。团队...

阅读原文

AIGC动态

2年前 (2024)

六年、六届学生接力，共铸上交大图像合成工具箱libcom

机器之心报道机器之心编辑部arX‍iv:2106.14490v5如果你对 arXiv 的版本号有所了解，你就知道这篇论文已经更新了 4 次，现在已经来到了第 5 个版本。实际上，...

阅读原文

AIGC动态

2年前 (2024)

5.2k星！突破 OCR 困境的超级变革者来了；多语言医疗大模型开源，语料库和基准数据集已提供下载

在当今数字化进程飞速发展的时代，OCR（光学字符识别）技术虽已普及，但仍存在诸多瓶颈。传统 OCR 模型在面对复杂多变的情况时，识别准确率会大打折扣，且处...

阅读原文

AIGC动态

2年前 (2024)

文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类

新智元报道编辑：LRS 【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计...

阅读原文

AIGC动态

2年前 (2024)

最新AI生图模型Flux1.1刷屏！添加单反相机文件名获得超写实图像，网友：我分不清啊

梦晨西风发自凹非寺量子位 | 公众号 QbitAI最新AI文生图模型Flux1.1，一夜刷屏。只需一个简单技巧，就能去除图中的“AI味”，无论人物还是风景都能达到照片...

阅读原文

AIGC动态

2年前 (2024)

一键拯救废片！3个在线教程，实现光线重塑、表情迁移、模糊图像修复

作者：李宝珠我们为大家整理了 3 款拯救废片神器及其一键部署教程，快速 get 精致朋友圈！您的国庆假期余额已不足 2 天！旅游或是归家探亲的小伙伴是不是都...

阅读原文

AIGC动态

2年前 (2024)

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

机器之心报道编辑：佳琪、PandaMolmo，开源多模态模型正在发力！虽然大家一直在期待谷歌、OpenAI 等等拥有无限资金储备和顶尖人才的大厂做出新的 Sota 模型...

阅读原文

AIGC动态

2年前 (2024)

ECCV2024 Oral | 第一视角下的动作图像生成，Meta等提出LEGO模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

Meta 首个多模态大模型一键启动！首个多绣数据集上线，含超 30k 张图片

小扎在 Meta Connect 2024 主题演讲中宣布推出首个多模态大模型 Llama 3.2 vision！该模型有 11B 和 90B 两个版本，成为首批支持多模态任务的 Llama 系列模型...

阅读原文

AIGC动态

2年前 (2024)

中科院自动化所王金桥教授团队发布！利用无掩码扩散技术实现多功能时尚编辑 | 一作牛蕴方博士讲座预告

时尚图像编辑旨在根据给定的指令修改人物的外观。现有的方法通常需要辅助工具，如分割器和关键点提取器，缺乏灵活且统一的框架。此外，这些方法在能够处理的...

阅读原文

AIGC动态

2年前 (2024)

Nature ：人类大脑如何编码和理解时间和经历的流动

来源：欧米伽未来研究所 “欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技...

阅读原文

AIGC动态

2年前 (2024)

入选ECCV 2024！覆盖5.4w+图像，MIT提出医学图像分割通用模型ScribblePrompt，性能优于SAM

作者：哇塞编辑：李姝，李宝珠麻省理工学院计算机科学与人工智能实验室团队等，提出一种交互式生物医学图像分割通用模型 ScribblePrompt，支持不同注释方式...

阅读原文

AIGC动态

2年前 (2024)

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

新智元报道编辑：桃子好困【新智元导读】Meta首个理解图文的多模态Llama 3.2来了！这次，除了11B和90B两个基础版本，Meta还推出了仅有1B和3B轻量级版本，适...

阅读原文

AIGC动态

2年前 (2024)

1…3 456 7…48