标签：视觉

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

港科大具身机器人团队，连续获亿级融资

允小中发自凹非寺量子位 | 公众号 QbitAI又一具身智能公司，对外官宣完成新融资—— 戴盟机器人，港科大创业团队，连续完成两轮亿元级人民币的天使+轮融资。 ...

阅读原文

AIGC动态

2年前 (2024)

多模态大模型系列：Qwen-VL解读及其实战(以配图文案生成为例)

大会预告12月5日-6日，智猩猩共同主办的2024中国生成式AI大会（上海站）将举办。银河通用机器人合伙人张直政、腾讯优图实验室天衍研究中心负责人吴贤、上海科...

阅读原文

AIGC动态

2年前 (2024)

vivo影像规划预研部研究员官善琰：基于视觉的物理规律反演研究 | 讲座预告

文本到图像的扩散模型在文本提示的指导下展示了前所未有的创作能力，例如在视觉艺术、合成数据集构建以及市场营销和广告中的图像编辑等创意工作。然而，基于...

阅读原文

AIGC动态

2年前 (2024)

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

奇月发自凹非寺量子位 | 公众号 QbitAI现在，随便丢给机械手一个陌生物体，它都可以像人类一样轻松拿捏了—— 除了苹果，罐头、乐高积木、大象玩偶、骰子，都...

阅读原文

AIGC动态

2年前 (2024)

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

机器之心发布机器之心编辑部随着人形机器人技术的迅猛发展，如何有效获取高质量的操作数据成为核心挑战。鉴于人类操作行为的复杂性和多样性，如何从真实世界...

阅读原文

AIGC动态

2年前 (2024)

开源版SearchGPT来了，两张3090就可复现，超越Perplexity付费版

VSA团队投稿量子位 | 公众号 QbitAIOpenAI推出SearchGPT没几天，开源版本也来了。港中文MMLab、上海AI Lab、腾讯团队简易实现了Vision Search Assistant，...

阅读原文

AIGC动态

2年前 (2024)

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

衡宇发自凹非寺量子位 | 公众号 QbitAI空间智能版ImageNet来了，来自斯坦福李飞飞吴佳俊团队！ HourVideo，一个用于评估多模态模型对长达一小时视频理解能...

阅读原文

AIGC动态

2年前 (2024)

不让视觉语言模型「盲猜」，性能竟直接提升一倍？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

英伟达发布视觉AI Agent，能用AI总结真实世界了

大会预告12月5日-6日，2024中国生成式AI大会（上海站）举办。将邀请50+位嘉宾围绕大模型、AI Infra、端侧生成式AI、AI视频生成和具身智能等议题进行同台分享...

阅读原文

AIGC动态

2年前 (2024)

视觉定位新SOTA！华人团队开源革新框架SegVG，边界框转为分割信号 | ECCV 2024

新智元报道编辑：LRST 【新智元导读】SegVG是一种新的视觉定位方法，通过将边界框注释转化为像素级分割信号来增强模型的监督信号，同时利用三重对齐模块解决...

阅读原文

AIGC动态

2年前 (2024)

无需参数访问！CMU用大模型自动优化视觉语言提示词 | CVPR’24

林之秋投稿量子位 | 公众号 QbitAI视觉语言模型（如 GPT-4o、DALL-E 3）通常拥有数十亿参数，且模型权重不公开，使得传统的白盒优化方法（如反向传播）难以...

阅读原文

AIGC动态

2年前 (2024)

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

点击下方卡片，关注“AI生成未来”后台回复“GAI”，免费获取最新AI相关行业报告和资料！作者：Hong Chen等解读：AI生成未来文章链接：https://arxiv.org/pdf/...

阅读原文

AIGC动态

2年前 (2024)

开源视频生成天花板？最强搅局者Mochi 1免费直出电影级特效

新智元报道编辑：alan 【新智元导读】AI视频生成领域最强搅局者，她来了！影视级效果免费开源，真「赛博菩萨」。AI视频生成赛道最强搅局者，来了！何谓搅局...

阅读原文

AIGC动态

2年前 (2024)

解决原生MLLM灾难性遗忘问题！上海AI Lab提出原生多模态大模型Mono-InternVL | 博士后研究员罗根讲座预告

现有的多模态大模型（MLLM）通常将预训练的视觉编码器与大语言模型结合来实现，即模块化MLLM。最近新兴的Chameleon、EVE等原生MLLM，将视觉感知和多模态理解...

阅读原文

AIGC动态

2年前 (2024)

AI让手机任务自动“跑”起来！我国高校最新研究，简化移动设备操作

MOE KLINNS Lab投稿量子位 | 公众号 QbitAIAI解放碳基生物双手，甚至能让你的手机自己玩自己！你没听错——这其实就是移动任务自动化。在AI飞速发展下，这逐...

阅读原文

AIGC动态

2年前 (2024)

12 3…20