标签:长度

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

机器之心报道 编辑:Panda为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方...
阅读原文

LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

新智元报道编辑:LRS 【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能!大型语言...
阅读原文

LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens

大数据文摘受权转载自微软亚洲研究院 编者按:大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力,快速扫描整部百科全书...
阅读原文

谁将取代 Transformer?

来源:AI科技评论 作者:张进( AI科技评论) 2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮...
阅读原文

RAG与Long-Context之争—没必要争

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云...
阅读原文

谁将替代 Transformer?

非 Transformer 面临的共同考验依然是证明自己的天花板有多高。作者丨张进 编辑丨陈彩娴 2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智...
阅读原文

怎么劝ChatGPT干活效果最好?我们尝试了100种方法,有图有真相

机器之心报道 编辑:蛋酱、泽南在 ChatGPT API 中,系统提示是一项很有亮点的功能,它允许开发人员控制 LLM 输出的「角色」,包括特殊规则和限制。系统提示中...
阅读原文

马斯克Ilya私密邮件被Claude破译,OpenAI打码信息公开,谷歌很受伤

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI和马斯克争得不可开交,却无意间揭示了Claude 3的新技能。 因为网友吃瓜的心可不只用在了事情本身,就连邮件...
阅读原文

今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练

夕小瑶科技说 原创作者 | 芒果 引言:大语言模型的长上下文理解能力在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能...
阅读原文

200万上下文窗口创飞Gemini 1.5!微软来砸谷歌场子了(doge)

西风 发自 凹非寺量子位 | 公众号 QbitAI谷歌刚刷新大模型上下文窗口长度记录,发布支持100万token的Gemini 1.5,微软就来砸场子了。 推出大模型上下文窗口拉...
阅读原文

符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!

夕小瑶科技说 原创作者 | Tscom、Python引言:探索语言模型的长上下文能力近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先...
阅读原文

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

机器之心报道 编辑:陈萍、小舟模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 ...
阅读原文

Mamba论文为什么没被ICLR接收?AI社区沸腾了

机器之心报道 编辑:张倩、蛋酱基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。 2023 年,Transformer 在 AI 大模型领域的统治地位被撼...
阅读原文

深层探索相对论中的尺缩效应:是物体自身真的变短了,还是测量结果变短了?

来源:宇宙探索未解之谜 “运动着的物体,其运动方向上的长度会变短”这句话经常出现在相对论科普中,虽然表述不太严谨,但作为科普来说,还是可以的,不过这也...
阅读原文

比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁

机器之心专栏 机器之心编辑部大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引,在算法与芯片之间,撕开了一道充分的推理竞争场。 面对想...
阅读原文
1234