标签:视觉

美图秀秀上车最新自研大模型,各类AIGC玩法可直接体验

明敏 发自 厦门量子位 | 公众号 QbitAI美图自研大模型3.0,正式发布!并且全面应用于美图旗下影像与设计产品。这是自美图大模型面世100天后的最新迭代。相较...
阅读原文

野心勃勃的MiniGPT-5出现了!Token变Voken,支持图文交叉生成

夕小瑶科技说 分享来源 | 机器之心大模型正在实现语言和视觉的跨越,有望无缝地理解和生成文本和图像内容。在最近的一系列研究中,多模态特征集成不仅是一种...
阅读原文

前百度高管接手AWS大中华区;英伟达取消以色列AI峰会;华为剧透小艺语音转写功能丨AIGC大事日报

10/09全球AIGC产业要闻1、谷歌前高管出任微软副总裁 主攻AIGC2、英伟达宣布取消原定下周的以色列AI峰会3、百度前副总裁出任亚马逊云科技大中华区负责人4、百...
阅读原文

美图自研视觉大模型3.0发布!能“脑补”生图和精准修图,100天全面进化

迈向AI视觉大模型的未来:万物皆可生成。作者|ZeR0编辑|漠影智东西10月9日报道,今日下午,美图自研AI视觉大模型MiracleVision(奇想智能)3.0版本发布,并将...
阅读原文

统一图像和文字生成的MiniGPT-5来了:Token变Voken,模型不仅能续写,还会自动配图了

机器之心报道机器之心编辑部OpenAI 的 GPT-5 大模型似乎还遥遥无期,但已经有研究者率先推出了创新视觉与语言交叉生成的模型 MiniGPT-5。这对于生成具有连贯...
阅读原文

正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完

新智元报道编辑:Aeneas 好困【新智元导读】GPT-4V风头正盛,LLaVA-1.5就来踢馆了!它不仅在11个基准测试上都实现了SOTA,而且13B模型的训练,只用8个A100就...
阅读原文

微软发布多模态大模型GPT-4V使用指南,长达166页,一文速览

夕小瑶科技说 分享来源 | 机器之心作者 | 陈萍、张倩一周之前,ChatGPT迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之...
阅读原文

鼠鼠我呀,也有VR头显了!康奈尔给小鼠开颅,沉浸式研究大脑和行为

新智元报道编辑:Aeneas【新智元导读】最近,康奈尔大学的研究者们,给老鼠也戴上VR头显了。虽然拥有了VR体验,但鼠鼠们也付出了一些代价——比如,需要提前做...
阅读原文

ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

克雷西 萧箫 发自 凹非寺量子位 | 公众号 QbitAI刚刚,计算机视觉巅峰大会ICCV 2023,在法国巴黎正式“开奖”!今年的最佳论文奖,简直是“神仙打架”。例如,获...
阅读原文

微软最新166页测评报告:视觉模态GPT-4V到底有多强?

本文来源:机器之心一周之前,ChatGPT 迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之对应的,多模态版 GPT-4V 模型相...
阅读原文

纽大具身智能新进展:靠视觉反馈学会开罐头,任务成功率提高135%,LeCun点赞

克雷西 发自 凹非寺量子位 | 公众号 QbitAI注意看,这个机器人用手中的钳子轻松剪断了一根金属丝。盖上的铁盒子,也三下五除二就打开了。除此之外,物体抓取...
阅读原文

试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读

机器之心报道编辑:陈萍、张倩这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人,都值得一读。一周之前,ChatGPT迎来,不管是 GPT...
阅读原文

多模态大模型综述:从专家到通用助手

文章转载自量子位,Founder Park 有所调整。多模态大模型最全综述来了!由微软 7 位华人研究员撰写,足足 119 页——它从目前已经完善的和还处于最前沿的两类多...
阅读原文

微软最新发布:从专家到通用AI代理,一文读懂「多模态基础模型」

视觉是人类和其他生物感知世界的主要渠道之一。人工智能(AI)的一个核心愿景是开发 AI 代理,模仿感知、生成视觉信号,与视觉世界进行互动。近日,微软研究...
阅读原文

马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减

新智元报道编辑:桃子 好困【新智元导读】马毅教授团队最新研究表明,微调多模态大语言模型(MLLM)将会导致灾难性遗忘。模型灾难性遗忘,成为当前一个关键热...
阅读原文
116171819