LLM推理性能受输出格式影响，JSON最严重

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：LLM推理性能受输出格式影响，JSON最严重
关键字：格式,自然语言,模型,答案,问题
文章来源：量子位
内容字数：0字

内容摘要：

一水发自凹非寺量子位 | 公众号 QbitAI输出格式不同，竟然还能影响大模型发挥？！
两种提示下让大语言模型（LLMs）解同一道数学题，问题如下：
Eliza每周工作的前40小时，每小时的工资是10美元，加班费每小时x1.2。如果Eliza这周工作了45小时，她这周的收入是多少？
思维链prompt：“按照以下格式提供输出，逐步推理：…回答：最终答案是…”。
格式限制prompt：“按照以下有效的JSON格式提供输出：…（具体JSON格式见图）“。
正确答案是460，可以看出，思维链（让模型一步步思考）奏效，格式限制（“以JSON格式输出”）却失败了！！
这是大学和Appier AI Research新研究中的一幕，他们发现——
格式限制这玩意儿会降低LLMs的推理能力，且限制越严推理越差。（主打一个叛逆）
不过好消息是，能治。
他们发现，最佳解决方案是搞个“二次转换”（倒爷是吧），即LLMs首先用自然语言回答问题，然后再将答案转换为目标格式。
在这个过程中，他们对比了GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash等不同模型在生成不

原文链接：LLM推理性能受输出格式影响，JSON最严重