标签:问题

复旦大学:一个小技巧探测大模型的知识边界,有效消除幻觉

夕小瑶科技说 原创作者 | Zicy 孔子说“知之为知之,不知为不知,是知也”,目前的大模型非常缺乏这个能力。虽然大模型拥有丰富的知识,但它仍然缺乏对自己知识...
阅读原文

上交举办“大模型奥林匹克竞赛”,GPT-4o仅得39分

夕小瑶科技说 原创作者 | 谢年年大模型的奥林匹克竞赛来了! 最近,上交构建了一个全面、极具挑战性的奥赛级别的基准——OlympicArena,从来自62个不同奥林匹克...
阅读原文

迄今最快的网络流算法,网友:几乎与数学理论一样快

金磊 发自 凹非寺量子位 | 公众号 QbitAI迄今为止最快、近乎完美的网络流(Network Flow)算法,来了! 有多快? 对于任何类型的网络,计算速度几乎与数学理...
阅读原文

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

新智元报道编辑:桃子 乔杨 【新智元导读】LLM能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最...
阅读原文

ACL2024主会:无需训练的大模型推荐系统!

夕小瑶科技说 原创作者 | Axe_越如今,各种推荐系统无时无刻不在包围着我们的生活,自大模型(Large Language Model, LLM)时代以来,得益于LLM的高自由度,...
阅读原文

陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现

克雷西 发自 凹非寺量子位 | 公众号 QbitAIClaude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了...
阅读原文

首个多模态视频竞技场Video-MME来了!Gemini全面超越GPT-4o,Jeff Dean连转三次

新智元报道编辑:alan 好困 【新智元导读】近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌...
阅读原文

OpenAI CTO深度访谈:剧透GPT-5发布时间

OpenAI CTO 穆拉提分享OpenAI近况与AI行业动向。 编译|陈骏达 编辑|Panken 智东西6月25日消息,近日,OpenAI首席技术官米拉·穆拉提(Mira Murati)在达特茅斯...
阅读原文

大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark

克雷西 发自 凹非寺量子位 | 公众号 QbitAI一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了! 而且无论是GPT-4还是Claude 3,面对它都如同被夺了...
阅读原文

智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%

作者 | 智源研究院 MLVU 团队 当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性...
阅读原文

GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难

MLVU团队 投稿量子位 | 公众号 QbitAI难度大升级的多任务长视频理解评测基准MLVU来了! 由智源联合北邮、北大和浙大等多所高校推出。 究竟有多难呢?最终排名...
阅读原文

从高考到奥林匹克竞技场:大模型与人类智能的终极较量

‍ AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学...
阅读原文

2024KDD挑战任务,GPT-4仅得40分,Meta发布最新RAG评价基准

夕小瑶科技说 原创作者 | Axe_越众所周知,“要想富,先修路”,经常挖路的同学应该知道,要想修好一条路,首先就必须搞清楚关于道路质量的统一验收标准,否则...
阅读原文

GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA

新智元报道编辑:庸庸乔杨 【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...
阅读原文

创业失败指南:如何做垮一家创业公司?

成功创业公司的经验都是类似的,但失败的创业,却可能是千差万别的原因。比如决策者错误的判断、过度自信或领导的自恋、甚至过于臃肿的流程…… 今天这篇文章,...
阅读原文
1121314151635