标签:任务

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

LooGLE团队 投稿自 凹非寺量子位 | 公众号 QbitAI在长文本理解能力这块,竟然没有一个大模型及格! 北大联合北京通用人工智能研究院提出了一个新基准数据集:...
阅读原文

李飞飞「空间智能」之后,上交、智源、北大等提出空间大模型SpatialBot

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

特斯拉再造重创!OpenAI的人形机器人可以完全自主执行现实世界任务

点击上方蓝字关注我们由OpenAI支持的初创公司Figure,致力于开发面向家庭和工厂使用的AI机器人,如约发布了其人形机器人的新一代产品——Figure 02。 由Vettery...
阅读原文

Github 1.3K星的程序开发智能体!UIUC/CMU/耶鲁等联合发布OpenDevin技术报告

夕小瑶科技说 原创作者 | Axe_越如果说Agent(智能体)为LLM(大模型)找到了一个落地的方向,那么可以想象,一种能够自动完成软件开发、数据分析、网页浏览...
阅读原文

跨平台多模态智能体基准测试来了!但全班第一只考了35.26分

新智元报道编辑:alan 好困 【新智元导读】近日,来自CAMEL AI、KAUST、CMU、斯坦福、清华等高校和机构的研究人员推出了一个跨平台的多模态智能体基准测试,...
阅读原文

LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」

新智元报道编辑:乔杨 【新智元导读】前段时间冲上热搜的问题「9.11比9.9大吗?」,让几乎所有LLM集体翻车。看似热度已过,但AI界大佬Andrej Karpathy却从中...
阅读原文

对吴恩达 workflow 概念产品化的思考

大模型时代最火AI芯片峰会来啦!!9月6-7日,由芯东西联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群等7大板块。目前,AMD人...
阅读原文

人大高瓴发布Think-on-Graph 2.0,基于知识图的大模型推理再升级!

夕小瑶科技说 原创作者 | Axe_越经常参加高考的朋友可能会体会到,比起死记硬背知识点,将知识整理成脉络往往会获得事半功倍的效果。其实对于大模型来说也是...
阅读原文

87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

新智元报道编辑:乔杨 耳朵 【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o...
阅读原文

OpenDevin出技术报告了,大模型Agent开发者必读

机器之心报道 编辑:陈陈、泽南热门通用大模型 Agent 平台。 今年 3 月,「全球首位 AI 软件工程师」Devin 引爆了 AI 圈。与此前 AI 编程助手不同的是,Devin...
阅读原文

ChatGPT版「Her」被玩疯:哭着读诗,中文表现也很亮

金磊 发自 凹非寺量子位 | 公众号 QbitAI上线仅仅一天,GPT-4o的高级语音功能(Advanced Voice Mode)简直要被玩疯了。 无数网友脑洞大开的疯狂测试,GPT-4o...
阅读原文

CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

北京大学:利用好不确定性,8B小模型也能超越GPT-4

夕小瑶科技说 原创作者 | 谢年年大模型有一个显著的特点,那就是不确定性——对于特定输入,相同的LLM在不同解码配置下可能生成显著不同的输出。 比如问一问cha...
阅读原文

从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生

新智元报道编辑:编辑部 【新智元导读】斯坦福炒虾机器人作者,又出新作了!通过模仿学习,达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结...
阅读原文

全新生物学基准数据集LAB-Bench震撼开源!覆盖8大任务,超2.4K选择题

lü作者:十九 编辑:十九,李宝珠 FutureHouse Inc. 的研究人员推出了 LAB-Bench 生物学基准测试数据集,用于评估 AI 系统在文献检索和推理、图形解释、表格...
阅读原文
1101112131448