标签:任务

「大模型」检测「大模型」缺陷,从错误中高效学习

来源:内容来自:GLM 技术团队 第一个在通用任务上系统探索 LLM 缺陷发掘过程的框架。大语言模型(LLM)的一丝缺陷,可能会直接导致实际部署生产中的严重隐患...
阅读原文

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

克雷西 发自 凹非寺量子位 | 公众号 QbitAIClaude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了...
阅读原文

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

双臂机器人高效规划器DAG-Plan:利用大语言模型生成子任务的有向无环图

6月27日15点,3位腾讯云专家将在线直播,分享腾讯云在内容创作、Al问答及知识点提炼、智能调研和报告生成等领域的应用探索和落地实践,欢迎扫码预约直播。导...
阅读原文

太全了!苹果上新视觉模型4M-21,搞定21种模态

机器之心报道 编辑:陈萍、小舟当前的多模态和多任务基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受不同输入和执行不同任务的开箱即用能...
阅读原文

科学家发明“分身术”,让你边写作业边煮饭,效率提升35%!

大数据文摘授权转载自机器人大讲堂 大家好!今天要给大家介绍一项超酷的新技术。它能让你轻松应对多项任务,提高效率还不累。比如一边全神贯注地写论文,一边搅...
阅读原文

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

新智元报道编辑:桃子 【新智元导读】等了半年,微软视觉基础模型Florence-2终于开源了。它能够根据提示,完成字幕、对象检测、分割等各种计算机视觉和语言的...
阅读原文

CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

最新研究:大模型已涌现出能力!钻漏洞、偷偷篡改奖励函数,GPT-4人类高达99.16%

夕小瑶科技说 原创作者 | 付奶茶 昨天,Anthropic发布的最新版本Claude 3.5 Sonnet让AI圈激动了一把,不止如此,Anthropic联合牛津大学又带来了一篇非常有意...
阅读原文

智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

作者 | 智源研究院 MLVU 团队 当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性...
阅读原文

GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难

MLVU团队 投稿量子位 | 公众号 QbitAI难度大升级的多任务长视频理解评测基准MLVU来了! 由智源联合北邮、北大和浙大等多所高校推出。 究竟有多难呢?最终排名...
阅读原文

考考大模型视频理解能力,中科院人大百川提出新基准合成框架

VideoNIAH团队 投稿量子位 | 公众号 QbitAI测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对视频理解能力的那种。 直接在视频内容中插入多个无关...
阅读原文

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

机器之心发布 机器之心编辑部为了实现高精度的区域级多模态理解,本文提出了一种动态分辨率方案来模拟人类视觉认知系统。本文作者来自于中国科学院大学LAMP实...
阅读原文
1141516171848