标签:问题
大模型测试题爆火,GPT-4和Claude3都跪了,LeCun转发:新Benchmark
克雷西 发自 凹非寺量子位 | 公众号 QbitAI一项新的“大模型Benchmark”在推特上爆火,LeCun也点赞转发了! 而且无论是GPT-4还是Claude 3,面对它都如同被夺了...
智源联合多所高校推出首个多任务长视频评测基准 MLVU:GPT-4o 单选正确率不到 65%
作者 | 智源研究院 MLVU 团队 当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性...
GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难
MLVU团队 投稿量子位 | 公众号 QbitAI难度大升级的多任务长视频理解评测基准MLVU来了! 由智源联合北邮、北大和浙大等多所高校推出。 究竟有多难呢?最终排名...
从高考到奥林匹克竞技场:大模型与人类智能的终极较量
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学...
2024KDD挑战任务,GPT-4仅得40分,Meta发布最新RAG评价基准
夕小瑶科技说 原创作者 | Axe_越众所周知,“要想富,先修路”,经常挖路的同学应该知道,要想修好一条路,首先就必须搞清楚关于道路质量的统一验收标准,否则...
GPT-4o攻破ARC-AGI无法被挑战的神话!71%准确率成新SOTA
新智元报道编辑:庸庸乔杨 【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...
创业失败指南:如何做垮一家创业公司?
成功创业公司的经验都是类似的,但失败的创业,却可能是千差万别的原因。比如决策者错误的判断、过度自信或领导的自恋、甚至过于臃肿的流程…… 今天这篇文章,...
大模型预测问题的计算复杂度,用不同能力的LLMs协作提高推理效率
关键词:大语言模型,深度学习,计算复杂度来源:集智俱乐部 作者:郭瑞东 大语言模型(LLMs)在人工智能领域取得显著进展,但同时也带来了推理成本方面的...
中文大模型竞技场第一:MiniMax海螺AI初体验!
直播预告 | 6月20日晚7点,「智猩猩机器人新青年讲座」第8讲正式开讲,清华大学THUNLP lab在读博士胡锦毅将直播讲解《面向多模态大模型的具身智能平台LEGENT...
联创用ChatGPT写的一行代码让公司损失上万美元!网友:老板自己写的,找不到人背锅了
作者|Asim Shrestha 译者|核子可乐 编辑|冬梅编者按:ChatGPT 在编程时的使用已经非常广泛。近日,一支国外技术团队在利用 ChatGPT 生成代码进行开发时遇...
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
新智元报道编辑:乔杨 好困 【新智元导读】DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GN...
LLM最全「怪癖」首曝光!马里兰OpenAI等30+学者祭出75页提示报告
新智元报道编辑:编辑部 【新智元导读】大语言模型提示中,竟有不少「怪癖」:重复某些内容,准确性就大大提高;人名变匿名,准确性就大大下降。最近,马里兰...
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4
机器之心报道 编辑:陈萍、杜伟通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。这几天,17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选...
张俊林:关于Scaling Law、半合成数据、MOE及长文本
直播预告 | 6月18日上午10点,「智猩猩AI新青年讲座」第240讲正式开讲,邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusion...
AI 初创企业如何做好增长?来自 PayPal 增长负责人的最佳实践
本文编译自播客 20VC,Harry Stebbings 与 Matt Lerner 谈论了 AI 时代中初创企业的最佳增长方法论。 Matt Lerner 在 PayPal 带领增长团队工作了 11 年,是增...