标签：图像

我在淘天做算法：十年拍立淘，一部视觉算法技术演变史

编者按：提到“程序猿”，大家脑海中是不是立刻浮现出格子衫、不修边幅、呆滞的画面形象？这些刻板印象已经out啦，其实程序员们都是敬业又聪明的热血少年！他们...

阅读原文

AIGC动态

2年前 (2024)

下载次数破39万！CMU、Meta联合发布VQAScore文生图优化方案：Imagen3已采用

新智元报道编辑：LRST 【新智元导读】VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法；GenAI-Bench是一个包含复杂文本提示的基准测...

阅读原文

AIGC动态

2年前 (2024)

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

点击下方卡片，关注“AI生成未来”后台回复“GAI”，免费获取最新AI相关行业报告和资料！作者：Hong Chen等解读：AI生成未来文章链接：https://arxiv.org/pdf/...

阅读原文

AIGC动态

2年前 (2024)

o1图像理解神秘现身，网友疯狂测试！Altman自曝：o2研究生级水平破105%

新智元报道编辑：桃子【新智元导读】完整版o1图像理解能力，被提前「放出」了？网友曝出o1能够识图，进行推理总结。现在，o1多模态一大波试用已经铺屏全网。...

阅读原文

AIGC动态

2年前 (2024)

幻觉不一定有害，新框架用AI的「幻觉」优化图像分割技术

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

刘子煜投稿量子位 | 公众号 QbitAI多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言...

阅读原文

AIGC动态

2年前 (2024)

神秘模型“小熊猫”一夜刷屏！登上生图排行榜第一

夕小瑶科技说分享来源 | 机器之心大家别猜了，「red_panda」（小熊猫）模型有主了。谜底解开了。前几天在 Hugging Face 文本转图像排行榜上排名第一的 red...

阅读原文

AIGC动态

2年前 (2024)

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

机器之心报道机器之心编辑部大家别猜了，「red_panda」（小熊猫）模型有主了。谜底解开了。前几天在 Hugging Face 文本转图像排行榜上排名第一的 red_panda...

阅读原文

AIGC动态

2年前 (2024)

在线教程 | 重回霸主地位，Stable Diffusion 3.5 轻松生成多元化风格图像

HyperAI超神经教程版块现已上线「Stable-Diffusion-3.5-Large 图像生成 Demo」，无需输入任何命令，一键克隆即可快速体验！今年 6 月，Stability AI 隆重发布...

阅读原文

AIGC动态

2年前 (2024)

统一图像生成，无需繁杂插件！智源发布扩散模型框架OmniGen

允中发自凹非寺量子位 | 公众号 QbitAI多模态模型，统一图像生成。最新扩散模型框架来了。智源研究院推出OmniGen，它能天然支持各种图像生成任务，架构高...

阅读原文

AIGC动态

2年前 (2024)

多模态大模型: 盘点&Highlights part2——Qwen-VL系列

讲座预告11月1日上午10点，南开大学在读博士李森茂，将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解，欢迎扫码报名~导读Hi大家好，我叫延捷，...

阅读原文

AIGC动态

2年前 (2024)

NeurIPS 2024收录！基于扩散模型编码器模块的推理加速丨一作、南开大学博士生李森茂讲座预告

最近，文本到图像的扩散模型取得了显着的进步。值得注意的是，Stable Diffusion和DeepFloyd-IF是当前开源社区中最成功的两个扩散模型。这些模型基于UNet架构...

阅读原文

AIGC动态

2年前 (2024)

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

一水发自凹非寺量子位 | 公众号 QbitAI一夜之间，名为“red_panda”（小熊猫）的神秘文生图模型狠狠火了！！登顶文生图竞技场，直接将Flux、Midjourney等一...

阅读原文

AIGC动态

2年前 (2024)

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

机器之心发布机器之心编辑部大型语言模型（LLM）的出现统一了语言生成任务，并彻底改变了人机交互。然而，在图像生成领域，能够在单一框架内处理各种任务的...

阅读原文

AIGC动态

2年前 (2024)

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

新智元报道编辑：静音【新智元导读】能识别并转录18世纪手稿、还能推测无地标照片拍摄地……马斯克本人也出来官宣：Grok现在能够理解图像了！就在刚刚，xAI为G...

阅读原文

AIGC动态

2年前 (2024)

123 4…48