今日arXiv最热大模型论文：学提出用于大模型生成的动态温度采样法，简单有效！

AIGC动态1年前 (2024)发布夕小瑶科技说

今日arXiv最热大模型论文：南京大学提出用于大模型生成的动态温度采样法，简单有效！

AIGC动态欢迎阅读

原标题：今日arXiv最热大模型论文：学提出用于大模型生成的动态温度采样法，简单有效！
关键字：温度,字节跳动,任务,模型,策略
文章来源：夕小瑶科技说
内容字数：9772字

内容摘要：

夕小瑶科技说原创作者 | 松果引言：温度采样在大型语言模型中的作用与局限在自然语言处理（NLP）的领域，大语言模型（LLMs）已经在各种下游语言任务中展现出了卓越的性能。这些任务包括但不限于问答、摘要、机器翻译等。LLMs的强大能力在于其生成的文本质量和多样性。为了控制生成过程，温度采样（temperature sampling）策略被广泛应用于调整下一个生成词的概率分布，从而影响模型的性能。
然而，现有的方法大多采用固定的温度参数，这在实际应用中可能并非最佳选择。固定温度在平衡生成质量和多样性方面存在局限性。如果模型每次生成高度相似甚至相同的内容，那么在需要多次生成的情况下，固定的温度设置就显得不够合理。
鉴于此，研究者们开始探索动态选择温度参数的方法，以期在生成质量和多样性之间实现更好的平衡。本文将介绍一种基于熵的动态温度采样（EDT）方法，该方法能够在每个解码步骤动态选择温度参数，以期在几乎不增加计算成本的情况下，显著提升模型在不同任务中的表现。
论文标题：EDT: Improving Large Language Models’ Generation by Entropy-b

原文链接：今日arXiv最热大模型论文：学提出用于大模型生成的动态温度采样法，简单有效！

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文