AIGC动态欢迎阅读
原标题:今日arXiv最热大模型论文:南京大学提出用于大模型生成的动态温度采样法,简单有效!
关键字:温度,字节跳动,任务,模型,策略
文章来源:夕小瑶科技说
内容字数:9772字
内容摘要:
夕小瑶科技说 原创作者 | 松果引言:温度采样在大型语言模型中的作用与局限在自然语言处理(NLP)的领域,大语言模型(LLMs)已经在各种下游语言任务中展现出了卓越的性能。这些任务包括但不限于问答、摘要、机器翻译等。LLMs的强大能力在于其生成的文本质量和多样性。为了控制生成过程,温度采样(temperature sampling)策略被广泛应用于调整下一个生成词的概率分布,从而影响模型的性能。
然而,现有的方法大多采用固定的温度参数,这在实际应用中可能并非最佳选择。固定温度在平衡生成质量和多样性方面存在局限性。如果模型每次生成高度相似甚至相同的内容,那么在需要多次生成的情况下,固定的温度设置就显得不够合理。
鉴于此,研究者们开始探索动态选择温度参数的方法,以期在生成质量和多样性之间实现更好的平衡。本文将介绍一种基于熵的动态温度采样(EDT)方法,该方法能够在每个解码步骤动态选择温度参数,以期在几乎不增加计算成本的情况下,显著提升模型在不同任务中的表现。
论文标题:EDT: Improving Large Language Models’ Generation by Entropy-b
原文链接:今日arXiv最热大模型论文:南京大学提出用于大模型生成的动态温度采样法,简单有效!
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189