标签:文本

Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式

丰色 发自 凹非寺量子位 | 公众号 QbitAI纵观生成式AI领域中的两个主导者:自回归和扩散模型。 一个专攻文本等离散数据,一个长于图像等连续数据。 如果,我...
阅读原文

RAG实战全解析:一年探索之路

4月18-19日,由智猩猩与智东西共同主办的2024中国生成式AI大会将在北京JW万豪酒店举行。大会完整议程出炉,55位嘉宾出席!免费票申请通道即将关闭,大会通票...
阅读原文

剑指Sora!120秒超长AI视频模型免费开玩

新智元报道编辑:alan 【新智元导读】近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时...
阅读原文

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

机器之心专栏 机器之心编辑部美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编辑方法 ——CustomNeRF,...
阅读原文

CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF

美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3...
阅读原文

谷歌推出Imagen 2,可生成短视频

点击上方蓝字关注我们“谷歌发布Imagen 2,一款新的AI图像生成工具,旨在为企业用户提供专业服务。尽管面临竞争和深度伪造的担忧,谷歌通过创新功能和安全措施...
阅读原文

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

手机厂商自研的端侧模型功能,会超越纯正的大模型团队吗?编译 | 赖文昕 编辑 | 陈彩娴 大模型的诞生,让科技巨头与创业公司们在新一轮的竞赛中再次鸣枪出发...
阅读原文

谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡

机器之心报道 编辑:陈萍Gecko 是一种通用的文本嵌入模型,可用于训练包括文档检索、语义相似度和分类等各种任务。 文本嵌入模型在自然语言处理中扮演着重要...
阅读原文

首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作

新智元报道编辑:alan 【新智元导读】来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别...
阅读原文

一眼假!GPT4V可有效识别DeepFake图像!

夕小瑶科技说 原创作者 | 芒果引言:AI时代的信息真伪辨识在人工智能迅猛发展的今天,我们面临着前所未有的信息真伪辨识挑战。AI技术,尤其是深度学习模型,...
阅读原文

上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升

白交 发自 凹非寺量子位 | 公众号 QbitAICLIP长文本能力被解锁,图像检索任务表现显著提升! 一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架...
阅读原文

打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车

这可能是 最懂文字 的AI模型没有谁能一直称王,但加上前缀谁都有称王的机会。 AI 文生图,还能玩出什么新花样? 在这片群雄割据的红海,头部被 Midjourney、D...
阅读原文

马斯克发布Grok-1.5;阿里首次开源MoE大模型;AI21 Labs首推基于Mamba的量产级模型丨AIGC大事日报

03/29 全球AIGC产业要闻 1、马斯克发布Grok-1.5 上下文128k硬刚GPT-4 2、阿里首次开源MoE架构大模型 3、Meta下月为智能眼镜添加AI功能 4、谷歌推出内容真实度...
阅读原文

RAG与Long-Context之争—没必要争

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云...
阅读原文

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

新智元报道编辑:Mindy 【新智元导读】图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法...
阅读原文
167891020