标签：图像

NeurIPS 2023 Spotlight｜高质量多视角图像生成，完美复刻场景材质！SFU等提出MVDiffusion

新智元报道编辑：LRS 好困【新智元导读】不怕多视角图像变化大，MVDiffusion整合图片全局意识，内容一致性更高！逼真的图像生成在虚拟现实、增强现实、视频游...

阅读原文

AIGC动态

3年前 (2023)

试过GPT-4V后，微软写了个166页的测评报告，业内人士：高级用户必读

机器之心报道编辑：陈萍、张倩这篇由微软撰写的报告，深入研究了GPT-4V的功能，任何想要探索GPT-4V潜力的人，都值得一读。一周之前，ChatGPT迎来，不管是 GPT...

阅读原文

AIGC动态

3年前 (2023)

真实性惊人，谷歌、康奈尔提出真实的图像补全技术RealFill

机器之心报道编辑：XW得到一张好看的照片越来越容易了。假期出游，肯定少不了拍照留念。不过，大部分在景区拍摄的照片或多或少都有些遗憾，背景里不是多了些...

阅读原文

AIGC动态

3年前 (2023)

Midjourney V6来袭！性能对标DALL·E 3，争夺地表最强作图AI称号

新智元报道编辑：Lumina【新智元导读】面对OpenAI来势汹汹的DALL·E 3，Midjourney也爆料出了自己下一代更强的版本Midjourney V6，不仅性能对标DALL·E 3，还将...

阅读原文

AIGC动态

3年前 (2023)

西交、清华等发布多模态大模型，有望成为「DALL·E 4」技术路线？和AI一起「白日作梦」

新智元报道编辑：LRS【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天，国内的一个新工作引起了社区的关注：DreamLLM。D...

阅读原文

AIGC动态

3年前 (2023)

多模态版Llama2上线，Meta发布AnyMAL

机器之心报道编辑：大盘鸡、泽南在多个基准测试中均刷新了业界最好的 zero-shot 性能。一个统一的模型，可以对不同模态输入内容（文本、图像、视频、音频、IM...

阅读原文

AIGC动态

3年前 (2023)

微软最新发布：从专家到通用AI代理，一文读懂「多模态基础模型」

视觉是人类和其他生物感知世界的主要渠道之一。人工智能（AI）的一个核心愿景是开发 AI 代理，模仿感知、生成视觉信号，与视觉世界进行互动。近日，微软研究...

阅读原文

AIGC动态

3年前 (2023)

对标DALL·E 3！Meta最强文生图Emu技术报告出炉

新智元报道编辑：Lumina【新智元导读】可以说，Meta刚刚发布的Emu，在性能上毫不逊色于DALL·E 3！而Emu取得优异性能背后的原因是「质量调整」。前几天，OpenA...

阅读原文

AIGC动态

3年前 (2023)

ChatGPT 终于“联网”了！不再局限于旧数据，新功能即将对所有人开放

整理｜冬梅、核子可乐当地时间周三（9 月 27 日），OpenAI 在 X（前身为推特）上宣布，其聊天机器人产品 ChatGPT 可以通过微软的必应搜索引擎进行网络搜索，...

阅读原文

AIGC动态

3年前 (2023)

这套亚运邮票居然用上了AIGC，阿里云和中国邮政让创作这件事变简单了

机器之心报道作者：陈萍邮政之父罗兰・希尔爵士的便士邮政法，引发了一场关于世界邮政的重要革新，同时也促进了世界上第一枚邮票「黑便士」的问世，这一年是 ...

阅读原文

AIGC动态

3年前 (2023)

Meta版ChatGPT来了：Llama 2加持，接入必应搜索，小扎现场演示

机器之心报道机器之心编辑部「杀死」OpenAI，小扎这波稳了吗？今天凌晨，一年一度的 Meta Connect 大会上发布了一系列以 AI 为重点的公告。不只有最新的 MR ...

阅读原文

AIGC动态

3年前 (2023)

对 GPT-4V(ision) 的第一印象

图文｜James Gallagher, Piotr Skalski翻译｜匡萃彪在这个指南中，我们将分享我们对GPT-4V图像输入功能的第一印象。我们将进行一系列实验，测试GPT-4V的功能...

阅读原文

AIGC动态

3年前 (2023)

文档字越多，模型越兴奋！KOSMOS-2.5：阅读「文本密集图像」的多模态大语言模型

新智元报道编辑：LRS 好困【新智元导读】文字也是一种视觉信息，多模态大语言模型KOSMOS-2.5不光能读懂论文，还能输出markdown格式！当前一个显著的趋势是致...

阅读原文

AIGC动态

3年前 (2023)

揭秘OpenAI的震撼之举：GPT-4V官方系统卡，你准备好被惊艳了吗？

夕小瑶科技说分享来源 | Web3天空之城OpenAI静悄悄的抛出了个重磅炸弹：多模态GPT-4V（Vision）发布！GPT-4V允许用户输入图像并结合文本prompt进行输出。估...

阅读原文

AIGC动态

3年前 (2023)

ChatGPT能语音和看图了！五种音色选项，背后模型细节公开

接下来两周内向Plus和企业版用户推出。编译|ZeR0编辑|漠影ChatGPT又升级了！智东西9月26日报道，OpenAI昨晚发布公告，宣布ChatGPT再度重磅升级，推出全新的语...

阅读原文

AIGC动态

3年前 (2023)

1…43 444546 47 48