标签:图像

再也不用羡慕修仙永生了,我已经“做到”了

‍ 点击上方卡片关注我,文末有彩蛋惊喜哦!作者 | 李忠良大模型技术的突破让生成式人工智能变得无处不在,从文本到图像再到视频,它们让我们的世界变得更加多...
阅读原文

香港最大AI诈骗案!Deepfake换脸「英国CFO」,直接骗走公司2亿港币

新智元报道编辑:润 【新智元导读】香港一家跨国公司员工,被骗子邀请进了用Deepfake做的「高管视频会议」中,下令让他转了2亿港币到不知名中账户,5天之后才...
阅读原文

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

机器之心报道 编辑:蛋酱、陈萍拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在...
阅读原文

Taylor Swift 身陷不雅照风波:AI 越强、Deepfakes 越猖狂,微软和推特们无法推责

作者| 褚杏娟、核子可乐 “他们没有认真对待我们的痛苦,所以现在我们有责任大规模举报这些人并让他们停职,”Taylor Swift Deepfakes 事件中参与平台举报的一...
阅读原文

谷歌连放大招:Gemini Pro支持中文,Bard学会画画,还上新了新模型

丰色 发自 凹非寺量子位 | 公众号 QbitAI在竞技场超车GPT-4的Bard“抓住势头”,刚刚释出重大更新: 一是集成的Gemini Pro全面铺开,新增40多种语言支持,包括...
阅读原文

Google Bard可以生成图片了,Gemini Pro向全球40多种语言开放

点击上方蓝字关注我们谷歌公司近日在其巴德聊天机器人中引入了新的图像生成功能,以抗衡竞争对手OpenAI的DALL-E 3,此举旨在保持在多模态聊天机器人领域的竞...
阅读原文

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

机器之心发布 机器之心编辑部只需一张照片,整个过程无需训练 LoRA 模型,多风格 AI 写真即刻呈现! 最近,有一群来自小红书的 95 后神秘团队,自称 InstantX...
阅读原文

最强开源多模态生成模型MM-Interleaved:首创特征同步器

机器之心专栏 机器之心编辑部过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩...
阅读原文

梵高大跳科目三,只需文字+火柴人动效!可控视频生成框架来了 | AAAI 2024

马跃 投稿量子位 | 公众号 QbitAI视频生成还可以这么玩? 来一个“火柴人”做做动作示范,再加文本描述,即可让各种形象惟妙惟肖地跟着动起来。 比如男人在公园...
阅读原文

准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

新智元报道编辑:LRS 【新智元导读】马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试Mementos,涵盖了真实世界图像...
阅读原文

纯文本模型训出「视觉」表征!MIT最新研究:语言模型用代码就能作画

新智元报道编辑:LRS 【新智元导读】不用图像,只用文本就能训练出视觉概念表征?用写代码的方式读懂画面,形状、物体、场景都能懂!只会「看书」的大语言模...
阅读原文

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

机器之心报道 机器之心编辑部动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。 当前的大型语言模型如 GPT、LLaMA 等...
阅读原文

腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法

夕小瑶科技说 原创作者 | 小戏、Python在大规模语言模型(LLMs)通往通用人工智能(AGI)的道路中,从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多...
阅读原文

何恺明谢赛宁团队步步解构扩散模型,最后竟成经典去噪自编码器

机器之心报道 编辑:Panda去噪扩散模型(DDM)是当前图像生成技术的一大主流方法。近日,Xinlei Chen、Zhuang Liu、谢赛宁与何恺明四人团队对 DDM 进行了解构...
阅读原文

垂直场景大有可为,电商AI图片工具PhotoRoom完成新融资,估值5亿美元

AI 图像编辑领域一直是热门领域,国内的妙鸭相机就是其中的代表产品,但 ToC 显然不是产品落地的唯一场景,更多垂直场景的落地才是 AI 图像编辑的发展方向。...
阅读原文
1282930313248