标签:长度

Meta:大语言模型可以通过自我批判取得大幅提升!

夕小瑶科技说 原创作者 | 谢年年论文的审稿模式想必大家都不会陌生,一篇论文除了分配多个评审,最后还将由PC综合评估各位审稿人的reviews撰写meta-review。 ...
阅读原文

谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不...
阅读原文

GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了

梦晨 发自 凹非寺量子位 | 公众号 QbitAI大模型竞技场规则更新,GPT-4o mini排名立刻雪崩,跌出前10。 新榜单对AI回答的长度和风格等特征做了降权处理,确保...
阅读原文

“防御性”编程弱爆了,我选择“进攻性”编程

Hello,大家好,我是 JioNLP。 应该都听说过防御性编程吧? 程序员们为了防止被裁员,需要把程序写得乱糟糟的: 要么是层层抽象,每一层都特别难理解,搞得其...
阅读原文

清华唐杰团队新作:一口气生成2万字,大模型开卷长输出

明敏 发自 凹非寺量子位 | 公众号 QbitAI一口气生成2万字,大模型输出也卷起来了! 清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。 相同...
阅读原文

30秒生成建模师级Mesh!最大可生成面数提升至1600,GitHub揽星1.9k项目发布V2版本

木子 投稿量子位 | 公众号 QbitAI只需30秒,AI就能像3D建模师一样,在各种指示下生成高质量人造Mesh。 NeRF、3D Gaussian Splatting生成的三维重建图像Mesh效...
阅读原文

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

夕小瑶科技说 原创作者 | Richard在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下...
阅读原文

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

新智元报道编辑:编辑部 【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我...
阅读原文

开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI开源大模型全球格局,一夜再变。 这不,全新开源大模型亮相,性能全面超越开源标杆Llama 3。王座易主了。不是“媲美”...
阅读原文

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

西风 发自 凹非寺量子位 | 公众号 QbitAI无情戳穿“长上下文”大模型的虚标现象—— 英伟达新研究发现,包括GPT-4在内的10个大模型,生成达到128k甚至1M上下文长...
阅读原文

陈丹琦团队新作:微调8B模型超越Claude3 Opus,背后是RLHF新平替

克雷西 发自 凹非寺量子位 | 公众号 QbitAI比斯坦福DPO(直接偏好优化)更简单的RLHF平替来了,来自陈丹琦团队。 该方式在多项测试中性能都远超DPO,还能让8B...
阅读原文

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

机器之心报道 编辑:Panda为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方...
阅读原文

LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

新智元报道编辑:LRS 【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能!大型语言...
阅读原文

LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens

大数据文摘受权转载自微软亚洲研究院 编者按:大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力,快速扫描整部百科全书...
阅读原文

谁将取代 Transformer?

来源:AI科技评论 作者:张进( AI科技评论) 2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮...
阅读原文
123