标签:问题

LLM智能「参差不齐」!AI大牛Karpathy用表情包解释「9.9<9.11」

新智元报道编辑:乔杨 【新智元导读】前段时间冲上热搜的问题「9.11比9.9大吗?」,让几乎所有LLM集体翻车。看似热度已过,但AI界大佬Andrej Karpathy却从中...
阅读原文

大模型“脑回路”统一了?LLMs竟然能正确回答其他模型虚构的题目

来源:夕小瑶科技说 原创 作者:谢年年 最近开源模型Llama3.1上线,其405B模型竟超越闭源GPT-4o,一夜之间成最强大模型! 然而榜首的位置还没坐热,仅隔一天...
阅读原文

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

YuBo Ma 投稿量子位 | 公众号 QbitAI图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多...
阅读原文

人大高瓴发布Think-on-Graph 2.0,基于知识图的大模型推理再升级!

夕小瑶科技说 原创作者 | Axe_越经常参加高考的朋友可能会体会到,比起死记硬背知识点,将知识整理成脉络往往会获得事半功倍的效果。其实对于大模型来说也是...
阅读原文

Meta 科学家揭秘 Llama 3.1:合成数据很重要,MoE 不是必须的

刚刚发布的开源「巨无霸」Llama 3.1 虽然自带论文,但依旧激起了广大网友强烈的好奇心和求知欲。 Llama 3.1 都使用了哪些数据?其中有多少合成数据?为什么不...
阅读原文

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞

机器之心报道 编辑:小舟干杯!当论文讨论细致到词句,是什么体验? 最近,斯坦福大学的学生针对 arXiv 论文创建了一个开放讨论论坛 ——alphaXiv,可以直接在...
阅读原文

还没排上SearchGPT?比Perplexity更好用的国产开源平替了解一下?

机器之心报道 编辑:佳琪、泽南来自上海人工智能实验室。 有 AI 在的科技圈,似乎没有中场休息。除了大模型发布不断,各家科技大厂也在寻找着第一个「杀手级...
阅读原文

UIUC 李博:如何探索大模型背后的安全隐忧?丨ICML 2024 直击

纯靠 Transformer 的架构或数据驱动模型,解决不了推理问题。作者丨马蕊蕾 编辑丨陈彩娴 大模型的安全研究,没有赶上 AI 的发展速度。 7 月微软蓝屏事件,像...
阅读原文

全新生物学基准数据集LAB-Bench震撼开源!覆盖8大任务,超2.4K选择题

lü作者:十九 编辑:十九,李宝珠 FutureHouse Inc. 的研究人员推出了 LAB-Bench 生物学基准测试数据集,用于评估 AI 系统在文献检索和推理、图形解释、表格...
阅读原文

真假 Agent 大讨论:我的 Agent 可能是个 Chatbot?

编辑 | 赵明华、褚杏娟 策划 | 李忠良 目前,Agent(智能体)已经成为当前人工智能领域的热门话题。在很多产品和业务上,Agent 都具有广泛的应用前景,不少...
阅读原文

Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?

还记得这些天大模型被揪出来的低级错误吗? 不知道 13.11 和 13.8哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人...
阅读原文

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

西风 发自 凹非寺量子位 | 公众号 QbitAI每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首? 最近有人从Meta发布的92页超长Llama 3....
阅读原文

训练一次经历 419 次意外故障!英伟达 GPU 也差点玩不转 405B 模型,全靠 Meta 工程师后天救场!

整理 | 华卫 最近,Meta 在一份研究报告中揭示了训练 Llama 3 405B 参数模型的重大挑战:该系统在包含 16384 个 Nvidia H100 GPU 的集群上运行,在训练期间...
阅读原文

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

新智元报道编辑:庸庸 好困 【新智元导读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟...
阅读原文

英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码

新智元报道编辑:乔杨 好困 【新智元导读】适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型...
阅读原文
13456730