标签:图片
从 ImageNet 到 AlexNet,李飞飞万字自述人工智能诞生的关键进程
要怎么介绍李飞飞? AI 教母、《时代》百大 AI 影响力人物、福布斯中国·全球华人精英 Top100, 美国国家工程院、国家医学院、艺术与科学院三院院士, 现代人...
喂饭级教程,看我如何用ChatGPT-4o做一款俄罗斯方块游戏!
昨天发的一篇文章,讲的是用 Midjourney 加 Kimi 做一款像素游戏。发完后,朋友看到说:“这他妈是游戏嘛,这跟你儿子学的 Scratch 做的游戏有什么区别?”我当...
在线教程|图灵奖得主Yann LeCun盛赞!小红书开源InstantID,一张原图即可定制多种风格写真
作者:十九 编辑:李宝珠,三羊 来自小红书的 95 后工程师联合北大团队发布了开源项目「InstantID」,只需上传一张照片,就能轻松定制多种风格的 AI 写真。不...
五图乱哗:AI 生图横扫初级设计狮
AI文生图,即通过训练神经网络,使用AI自动生成高保真、高分辨乃至高度逼真的图像。因为一句话就能生图,因此被宠坏的用户逐渐开始恣意妄为。 有想对着AI说一...
在线教程|低门槛部署!SUPIR 专治各种图片模糊,还能理解文本描述进行精修
作者:十九 编辑:李宝珠,三羊 封面图来源:SUPIR官网 SUPIR 图像修复工具可应用于模糊风景、人物、动物、游戏画面的修复等。家庭相册中泛黄的老照片,历史...
融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决
允中 发自 凹非寺量子位 | 公众号 QbitAI在开源社区中把GPT-4+Dall·E 3能⼒整合起来的模型该有多强? 香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gem...
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!读懂梗图刷爆榜单,代码复现数学函数
新智元报道编辑:编辑部 【新智元导读】贾佳亚团队提出VLM模型Mini-Gemini,堪比GPT-4+DALL-E 3王炸组合,一上线就刷爆了多模态任务榜单!读得懂梗图,做得了...
生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合
更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Ge...
刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源
机器之心发布 机器之心编辑部Mini-Gemini 堪比 GPT4+DALLE3 王炸组合。更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推...
Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)
吴恩达教授最近在红杉 AI 峰会上讲述了他对 Agent 的一些看法,尽管一些媒体已经进行了相关报道,但为了分发的及时性,而采用了机翻的方式,牺牲了表述的准确...
内含教程丨最高可降低 16 倍成本,ComfyUI Stable Cascade 教程已上线,一键部署!
作者:十九 编辑:李宝珠 今年 2 月,Stability AI 开源了文生图模型 Stable Cascade。相比于 Stable Diffusion 1.5,Stable Cascade 可以降低 16 倍成本。20...
ChatGPT现在能帮你P图了,只需简单说几个字
机器之心报道 作者:泽南、陈萍游戏规则已经改变。现在,不论是网页、iOS 还是安卓版的 ChatGPT,都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL...
阿里7B多模态文档理解大模型拿下新SOTA|开源
mPLUG团队 投稿量子位 | 公众号 QbitAI多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结...
“计算机视觉女神”被IEEE期刊封杀
西风 发自 凹非寺量子位 | 公众号 QbitAI计算机学术界的女神“Lenna”被IEEE“封杀”了—— IEEE计算机协会宣布,4月1日起不再接收包含该图像的论文。 △Lenna图IEEE...
打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车
这可能是 最懂文字 的AI模型没有谁能一直称王,但加上前缀谁都有称王的机会。 AI 文生图,还能玩出什么新花样? 在这片群雄割据的红海,头部被 Midjourney、D...