标签:长度
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
机器之心报道 编辑:Panda为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方...
LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍
新智元报道编辑:LRS 【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能!大型语言...
LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens
大数据文摘受权转载自微软亚洲研究院 编者按:大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力,快速扫描整部百科全书...
谁将取代 Transformer?
来源:AI科技评论 作者:张进( AI科技评论) 2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮...
RAG与Long-Context之争—没必要争
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云...
谁将替代 Transformer?
非 Transformer 面临的共同考验依然是证明自己的天花板有多高。作者丨张进 编辑丨陈彩娴 2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智...
怎么劝ChatGPT干活效果最好?我们尝试了100种方法,有图有真相
机器之心报道 编辑:蛋酱、泽南在 ChatGPT API 中,系统提示是一项很有亮点的功能,它允许开发人员控制 LLM 输出的「角色」,包括特殊规则和限制。系统提示中...
马斯克Ilya私密邮件被Claude破译,OpenAI打码信息公开,谷歌很受伤
克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI和马斯克争得不可开交,却无意间揭示了Claude 3的新技能。 因为网友吃瓜的心可不只用在了事情本身,就连邮件...
今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练
夕小瑶科技说 原创作者 | 芒果 引言:大语言模型的长上下文理解能力在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能...
200万上下文窗口创飞Gemini 1.5!微软来砸谷歌场子了(doge)
西风 发自 凹非寺量子位 | 公众号 QbitAI谷歌刚刷新大模型上下文窗口长度记录,发布支持100万token的Gemini 1.5,微软就来砸场子了。 推出大模型上下文窗口拉...
符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!
夕小瑶科技说 原创作者 | Tscom、Python引言:探索语言模型的长上下文能力近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先...
击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了
机器之心报道 编辑:陈萍、小舟模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 ...
Mamba论文为什么没被ICLR接收?AI社区沸腾了
机器之心报道 编辑:张倩、蛋酱基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。 2023 年,Transformer 在 AI 大模型领域的统治地位被撼...
深层探索相对论中的尺缩效应:是物体自身真的变短了,还是测量结果变短了?
来源:宇宙探索未解之谜 “运动着的物体,其运动方向上的长度会变短”这句话经常出现在相对论科普中,虽然表述不太严谨,但作为科普来说,还是可以的,不过这也...
比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁
机器之心专栏 机器之心编辑部大语言模型在端侧的规模化应用对计算性能、能效比需求的“提拽式”牵引,在算法与芯片之间,撕开了一道充分的推理竞争场。 面对想...