标签:语义

CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise

新加坡管理大学何盛烽团队联合华南师范大学在CVPR 2024上发表了工作《Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagatio...
阅读原文

关于 RAG、AI Agent、多模态,我们的理解与探索

嘉宾 | 王元编辑 | 李忠良引言:在这个快速发展的数字时代,生成式 AI 不仅仅是一个概念,而是正在被塑造成为未来技术生态系统的核心。随着 LLM 的崛起,我们...
阅读原文

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

机器之心专栏 机器之心编辑部虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。 为了达到这个目的,在传统...
阅读原文

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

新智元报道编辑:LRS 好困 【新智元导读】Masked Diffusion Transformer V2在ImageNet benchmark 上实现了1.58的FID score的新SoTA,并通过mask modeling表征...
阅读原文

清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回!

新智元报道编辑:LRS 【新智元导读】挖掘大模型固有的长文本理解能力,InfLLM在没有引入额外训练的情况下,利用一个外部记忆模块存储超长上下文信息,实现了...
阅读原文

从问题到解法!对于大模型RAG技术的一些复盘思考

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI Infra专场和AIGC应用专场;分会场将进行具身...
阅读原文

收藏!万字长文聊聊LLM Agents的现状,问题与未来

700个开发硬件免费申请➕现金大奖!生成式 AI、机器人 AI、PC AI 三大赛道!AMD Pervasive AI 开发者挑战赛报名火热进行中,扫码了解详情并报名~导读本文是知...
阅读原文

谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA

新智元报道编辑:桃子 【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷...
阅读原文

海马体掌管记忆的神,我是你的破壁人 | 追问顶刊

▷本文为追问特约长文,7000字,阅读需17min。建议收藏或转发朋友圈,分多次阅读,愿有所收获。本文已开快捷转载,如需另外开白,还请留言。记忆是如何形成的...
阅读原文

通用高级RAG技术详解

今天给大家解读一篇写的还不错的文章,介绍了一些通用的高级RAG技术,这里很多模块都可以参考,加入到整个RAG流程中。 聊的是这篇外文博客: https://pub.tow...
阅读原文

GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评

新智元报道编辑:LRS 好困 【新智元导读】华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对14个主流多模态大模型进行了全面测评,涵盖5个任务...
阅读原文

征召!开源项目JioNLP优化开发

Hello,大家好,我是 JioNLP。 工具包 jionlp 里有一个时间语义解析功能,我想征召大伙一起把这个功能优化一下。所谓时间语义解析,也就是把自然语言的时间表...
阅读原文

详解面向大模型的检索增强生成(RAG)

RAG最近有一篇广受关注的综述,最近是花了不少时间给啃了个大概,里面提及的挺多文章其实都挺精彩的,甚至是让人兴奋的。我先把链接放上。 论文:Retrieval-A...
阅读原文

第一家完成大模型研发和开源的央企为何是Ta?我们和电信AI团队聊了聊|视频

常史聘 假装发自 凹非寺量子位 | 公众号 QbitAI前不久,中国电信的星辰语义大模型正式开源,也就此成为第一家完成大模型研发和开源的央企。 星辰语义大模型由...
阅读原文

纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了

机器之心报道 编辑:Panda、蛋酱人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张...
阅读原文