标签:视觉

今日arXiv最热NLP大模型论文:逆向解析Sora背后的秘密,谈AI视频的机遇与挑战

夕小瑶科技说 原创作者 | Tscom 引言:Sora——AI在视频生成领域的新篇章随着AI技术的飞速发展,人工智能已在视频生成领域翻开新的篇章。自2022年11月ChatGPT问...
阅读原文

专访上海大学方昱春教授:数据驱动的手语识别研究,如何数据之困?|GAIR live

如何利用计算机视觉技术,解析手语的奥秘?作者|吴彤 编辑|麦广炜 在科技日新月异的今天,手语识别作为一种新兴的跨学科研究领域,正逐渐走进公众视野。 近...
阅读原文

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

机器之心专栏 机器之心编辑部虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。 为了达到这个目的,在传统...
阅读原文

Claude 3 Haiku发布:Anthropic迄今为止最快的模型

点击上方蓝字关注我们“Anthropic公司推出最新AI模型Claude 3 Haiku,以高速度和实惠的价格脱颖而出。Haiku不仅具备先进的视觉功能,还在处理速度上表现出色,...
阅读原文

从第一人称视角理解世界,多模态模型离我们还有多远?| CVPR 2024

大数据文摘受权转载自将门创投 目前很多评测工作探究视觉语言大模型在不同维度上的能力,但都忽视了真实世界中非常重要的一点:未来作为智能体或机器人的大脑...
阅读原文

今日Arxiv最热NLP大模型论文:美团发布VisionLLaMA,为视觉生成和理解提供新基线

夕小瑶科技说 原创作者 | 芒果引言:探索统一的视觉与语言模型架构在人工智能领域,统一的模型架构对于简化模型设计、提高模型效率以及促进跨领域应用具有重...
阅读原文

Sora:大型视觉模型的背景、技术、局限性和机遇综述

点击上方蓝字关注我们注:本文翻译自论文《Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models》,原作者版...
阅读原文

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

机器之心专栏 机器之心编辑部半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。 沿袭 ViT 的研究思路,我们能...
阅读原文

7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力

新智元报道编辑:LRS 好困 【新智元导读】研究人员证实了Visual Graph在图推理中的作用,以及其可以和文本模态相互增强。图神经网络(GNNs)擅长利用图的结构...
阅读原文

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

新智元报道编辑:润 好困 【新智元导读】谷歌DeepMind、UC伯克利和MIT的研究人员认为,如果用大语言模型的思路来做大视频模型,能解决很多语言模型不擅长的问...
阅读原文

给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实

新智元报道编辑:alan 好困 【新智元导读】近日,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Age...
阅读原文

解剖Sora:37页论文逆向工程推测技术细节,微软参与,华人团队出品

西风 发自 凹非寺量子位 | 公众号 QbitAISora刚发布不久,就被逆向工程“解剖”了?! 来自理海大学、微软研究院的华人团队发布了首个Sora相关研究综述,足足有...
阅读原文

中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻

新智元报道编辑:编辑部 【新智元导读】自曝996作息的OpenAI研究员Jason Wei表示,Sora代表着视频生成的GPT-2时刻。竞争的关键,就是算力和数据了。国内有可...
阅读原文

首个Sora逆向工程论文发布!

Sora深度论文综述中文版。 作者|城主 写在前面:来自理海大学和微软研究院的研究团队本周二发布了Sora的深度论文综述。这里和关心Sora的同学们分享本城翻译制...
阅读原文

首批现场体验 AI Pin 的人:为什么我不换台手机呢?

争议不断 创意不断AI Pin 在 MWC 2024(世界移动通信大会) 上的出场方式,和它本身一样,充满了争议。 Humane(AI Pin 母公司) 没有专属的展位,因此只能在...
阅读原文
191011121320