标签：问题

大模型测试题爆火，GPT-4和Claude3都跪了，LeCun转发：新Benchmark

克雷西发自凹非寺量子位 | 公众号 QbitAI一项新的“大模型Benchmark”在推特上爆火，LeCun也点赞转发了！而且无论是GPT-4还是Claude 3，面对它都如同被夺了...

阅读原文

AIGC动态

2年前 (2024)

智源联合多所高校推出首个多任务长视频评测基准 MLVU：GPT-4o 单选正确率不到 65%

作者 | 智源研究院 MLVU 团队当前，研究社区亟需全面可靠的长视频理解评估基准，以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性...

阅读原文

AIGC动态

2年前 (2024)

GPT-4o差点没及格！首个多任务长视频评测基准，它有亿点难

MLVU团队投稿量子位 | 公众号 QbitAI难度大升级的多任务长视频理解评测基准MLVU来了！由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢？最终排名...

阅读原文

AIGC动态

2年前 (2024)

从高考到奥林匹克竞技场：大模型与人类智能的终极较量

‍ AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学...

阅读原文

AIGC动态

2年前 (2024)

2024KDD挑战任务，GPT-4仅得40分，Meta发布最新RAG评价基准

夕小瑶科技说原创作者 | Axe_越众所周知，“要想富，先修路”，经常挖路的同学应该知道，要想修好一条路，首先就必须搞清楚关于道路质量的统一验收标准，否则...

阅读原文

AIGC动态

2年前 (2024)

GPT-4o攻破ARC-AGI无法被挑战的神话！71%准确率成新SOTA

新智元报道编辑：庸庸乔杨【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动，GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA...

阅读原文

AIGC动态

2年前 (2024)

创业失败指南：如何做垮一家创业公司？

成功创业公司的经验都是类似的，但失败的创业，却可能是千差万别的原因。比如决策者错误的判断、过度自信或领导的自恋、甚至过于臃肿的流程…… 今天这篇文章，...

阅读原文

AIGC动态

2年前 (2024)

大模型预测问题的计算复杂度，用不同能力的LLMs协作提高推理效率

关键词：大语言模型，深度学习，计算复杂度来源：集智俱乐部作者：郭瑞东‍‍ 大语言模型（LLMs）在人工智能领域取得显著进展，但同时也带来了推理成本方面的...

阅读原文

AIGC动态

2年前 (2024)

中文大模型竞技场第一：MiniMax海螺AI初体验！

直播预告 | 6月20日晚7点，「智猩猩机器人新青年讲座」第8讲正式开讲，清华大学THUNLP lab在读博士胡锦毅将直播讲解《面向多模态大模型的具身智能平台LEGENT...

阅读原文

AIGC动态

2年前 (2024)

联创用ChatGPT写的一行代码让公司损失上万美元！网友：老板自己写的，找不到人背锅了

作者｜Asim Shrestha 译者｜核子可乐编辑｜冬梅编者按：ChatGPT 在编程时的使用已经非常广泛。近日，一支国外技术团队在利用 ChatGPT 生成代码进行开发时遇...

阅读原文

AIGC动态

2年前 (2024)

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

新智元报道编辑：乔杨好困【新智元导读】DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GN...

阅读原文

AIGC动态

2年前 (2024)

LLM最全「怪癖」首曝光！马里兰OpenAI等30+学者祭出75页提示报告

新智元报道编辑：编辑部【新智元导读】大语言模型提示中，竟有不少「怪癖」：重复某些内容，准确性就大大提高；人名变匿名，准确性就大大下降。最近，马里兰...

阅读原文

AIGC动态

2年前 (2024)

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

机器之心报道编辑：陈萍、杜伟通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。这几天，17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选...

阅读原文

AIGC动态

2年前 (2024)

张俊林：关于Scaling Law、半合成数据、MOE及长文本

直播预告 | 6月18日上午10点，「智猩猩AI新青年讲座」第240讲正式开讲，邀请到德州大学奥斯汀分校刘星超博士将直播讲解《利用直线概率流加速Stable Diffusion...

阅读原文

AIGC动态

2年前 (2024)

AI 初创企业如何做好增长？来自 PayPal 增长负责人的最佳实践

本文编译自播客 20VC，Harry Stebbings 与 Matt Lerner 谈论了 AI 时代中初创企业的最佳增长方法论。 Matt Lerner 在 PayPal 带领增长团队工作了 11 年，是增...

阅读原文

AIGC动态

2年前 (2024)

1…13 141516 17…36