标签:图片

阿里7B多模态文档理解大模型拿下新SOTA|开源

mPLUG团队 投稿量子位 | 公众号 QbitAI多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结...
阅读原文

“计算机视觉女神”被IEEE期刊封杀

西风 发自 凹非寺量子位 | 公众号 QbitAI计算机学术界的女神“Lenna”被IEEE“封杀”了—— IEEE计算机协会宣布,4月1日起不再接收包含该图像的论文。 △Lenna图IEEE...
阅读原文

打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

这可能是 最懂文字 的AI模型没有谁能一直称王,但加上前缀谁都有称王的机会。 AI 文生图,还能玩出什么新花样? 在这片群雄割据的红海,头部被 Midjourney、D...
阅读原文

技术神秘化的去魅:Sora关键技术逆向工程图解

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,Open-Sora开发团队潞晨科技创始人尤洋,「清华系...
阅读原文

全新「多模态」生图AI文字渲染暴打Midjourney+DALL·E 3!5亿融资Karpathy都投了

新智元报道编辑:润 好困 【新智元导读】Ideogram凭借不输Midjourney的生图能力和遥遥领先的图片中文字渲染能力,获得了包括Jeff Dean和Karpathy在内一众大佬...
阅读原文

Sora外部测试翻车了!3个视频都有Bug

衡宇 发自 凹非寺量子位 | 公众号 QbitAI终于有OpenAI之外的人,放出自己亲测的Sora视频了! 请看第一个视频,来自油管科技up主: 它的prompt是,“光线昏暗的...
阅读原文

2023年,被用户放弃了的 Top AI 产品有哪些?

2023 年,a16z 曾推出 2023 年上半年 AI 产品榜单《全球最火的 50 个 AI 应用都是哪些?》,Founder Park 此前曾对榜单内的应用进行了归纳和分析。 如今半年...
阅读原文

Gemini被曝光歧视白人,Google再次被围攻,马斯克也加入了!

夕小瑶科技说 原创作者 | 付奶茶Gemini从诞生到今天,出现了不少瓜,最近它又被围攻了!这次它摊上了美国最敏感的种族歧视问题,而且与传统意义的种族歧视相...
阅读原文

记录活在 OpenAI 阴影里的 AI 创业经历

700个开发硬件免费申请➕现金大奖!生成式 AI、机器人 AI、PC AI 三大赛道!AMD Pervasive AI 开发者挑战赛报名火热进行中,扫码了解详情并报名~导读本文是知...
阅读原文

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

机器之心专栏 机器之心编辑部为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方...
阅读原文

AI绘图模型训练到推理,一个网页就能搞定

克雷西 发自 凹非寺量子位 | 公众号 QbitAI不会写代码,也能训练AI绘画模型了! 只要借助这个框架,从训练到推理都能一站式搞定,还能一次管理多个模型。 阿...
阅读原文

国内AI绘画哪家强?十大免费工具横评,BAT参战,但不是最强

对国内10款免费AI文生图工具5个梯度的进阶体验对比,哪款工具更得心应手? 作者|程茜 编辑|心缘 距离龙年春节只剩11天了,你的新年头像或红包封面准备好了吗...
阅读原文

「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑

新智元报道编辑:LRS 【新智元导读】将图片集反演到语义空间的分布,生成多样个性化图片或3D渲染,支持灵活文本编辑、多样性控制、概念混合等。最近,来自南...
阅读原文

视频一键动漫化AI工具火了,武打戏各种招式丝滑转换,免费在线可玩

西风 发自 凹非寺量子位 | 公众号 QbitAI文字、图片、视频,万物皆可动漫化! 看,两位老兄上一秒还在武馆激烈打斗: 下一秒就转到了二次元世界,出拳、格挡...
阅读原文

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!

国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗...
阅读原文