标签：图像

香港最大AI诈骗案！Deepfake换脸「英国CFO」，直接骗走公司2亿港币

新智元报道编辑：润【新智元导读】香港一家跨国公司员工，被骗子邀请进了用Deepfake做的「高管视频会议」中，下令让他转了2亿港币到不知名中账户，5天之后才...

阅读原文

AIGC动态

2年前 (2024)

罕见！苹果开源图片编辑神器MGIE，要上iPhone?

机器之心报道编辑：蛋酱、陈萍拍张照片，输入文字指令，手机就开始自动修图？这一神奇功能，来自苹果刚刚开源的图片编辑神器「MGIE」。把背景中的人移除在...

阅读原文

AIGC动态

2年前 (2024)

谷歌连放大招：Gemini Pro支持中文，Bard学会画画，还上新了新模型

丰色发自凹非寺量子位 | 公众号 QbitAI在竞技场超车GPT-4的Bard“抓住势头”，刚刚释出重大更新：一是集成的Gemini Pro全面铺开，新增40多种语言支持，包括...

阅读原文

AIGC动态

2年前 (2024)

Google Bard可以生成图片了，Gemini Pro向全球40多种语言开放

点击上方蓝字关注我们谷歌公司近日在其巴德聊天机器人中引入了新的图像生成功能，以抗衡竞争对手OpenAI的DALL-E 3，此举旨在保持在多模态聊天机器人领域的竞...

阅读原文

AIGC动态

2年前 (2024)

小红书开源「InstantID」效果炸裂，被Yann LeCun点赞，迅速蹿上Github热榜

机器之心发布机器之心编辑部只需一张照片，整个过程无需训练 LoRA 模型，多风格 AI 写真即刻呈现！最近，有一群来自小红书的 95 后神秘团队，自称 InstantX...

阅读原文

AIGC动态

2年前 (2024)

最强开源多模态生成模型MM-Interleaved：首创特征同步器

机器之心专栏机器之心编辑部过去几个月中，随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出，「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩...

阅读原文

AIGC动态

2年前 (2024)

梵高大跳科目三，只需文字+火柴人动效！可控视频生成框架来了 | AAAI 2024

马跃投稿量子位 | 公众号 QbitAI视频生成还可以这么玩？来一个“火柴人”做做动作示范，再加文本描述，即可让各种形象惟妙惟肖地跟着动起来。比如男人在公园...

阅读原文

AIGC动态

2年前 (2024)

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源

新智元报道编辑：LRS 【新智元导读】马里兰大学联合北卡教堂山发布首个专为多模态大语言模型（MLLM）设计的图像序列的基准测试Mementos，涵盖了真实世界图像...

阅读原文

AIGC动态

2年前 (2024)

纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

新智元报道编辑：LRS 【新智元导读】不用图像，只用文本就能训练出视觉概念表征？用写代码的方式读懂画面，形状、物体、场景都能懂！只会「看书」的大语言模...

阅读原文

AIGC动态

2年前 (2024)

ICLR 2024｜把图像视为外语，快手、北大多模态大模型媲美DALLE-3

机器之心报道机器之心编辑部动态视觉分词统一图文表示，快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。当前的大型语言模型如 GPT、LLaMA 等...

阅读原文

AIGC动态

2年前 (2024)

腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法

夕小瑶科技说原创作者 | 小戏、Python在大规模语言模型（LLMs）通往通用人工智能（AGI）的道路中，从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多...

阅读原文

AIGC动态

2年前 (2024)

何恺明谢赛宁团队步步解构扩散模型，最后竟成经典去噪自编码器

机器之心报道编辑：Panda去噪扩散模型（DDM）是当前图像生成技术的一大主流方法。近日，Xinlei Chen、Zhuang Liu、谢赛宁与何恺明四人团队对 DDM 进行了解构...

阅读原文

AIGC动态

2年前 (2024)

垂直场景大有可为，电商AI图片工具PhotoRoom完成新融资，估值5亿美元

AI 图像编辑领域一直是热门领域，国内的妙鸭相机就是其中的代表产品，但 ToC 显然不是产品落地的唯一场景，更多垂直场景的落地才是 AI 图像编辑的发展方向。...

阅读原文

AIGC动态

2年前 (2024)

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

机器之心报道编辑：泽南、蛋酱通义千问的图像推理能力，最近有了大幅提升。 2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什...

阅读原文

AIGC动态

2年前 (2024)

扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力

明敏发自凹非寺量子位 | 公众号 QbitAIPika北大斯坦福联手，开源最新文本-图像生成/编辑框架！无需额外训练，即可让扩散模型拥有更强提示词理解能力。面...

阅读原文

AIGC动态

2年前 (2024)

1…28 293031 32…48