Grok 4.1

Grok 4.1 – xAI 公司发布的最新人工智能模型

xAI 公司隆重推出其最新力作——Grok 4.1，一款在人工智能领域迈出重要一步的模型。此次升级不仅在多项关键能力上实现了质的飞跃，尤其在通用性、情感洞察力和创意表达方面，Grok 4.1 展现出了令人瞩目的卓越表现。在其推理模式（代号 quasarflux）的助力下，Grok 4.1 在 LMArena 的 Text Arena 排行榜上摘得桂冠，以 1483 的 Elo 分数傲视群雄。即便在非推理模式（代号 tensor）下，Grok 4.1 依然以 1465 的高分紧随其后，超越了其他所有模型即使开启了完全推理配置的水平。

在 EQ-Bench3 情感智能测试中，Grok 4.1 的两个模式均位列榜单前茅，充分证明了其在理解和处理人类情感方面的强大能力。本次重大升级带来了诸多亮点：幻觉率从显著的 12.09% 大幅降低至 4.22%，事实准确性得到了前所未有的提升；情感智能测试得分高达 1586 分，使得模型能够更自然、更富同理心地处理包含情绪的对话；创意写作能力也得到了显著增强，能够产出更具艺术感染力的文本；同时，其上下文窗口支持的 256,000 tokens，为处理长篇文档和复杂协作提供了坚实基础。值得一提的是，新模型采用了先进的强化学习和自主奖励系统，极大地减少了对人工标注的依赖，预示着AI模型训练的新方向。

Grok 4.1 的核心亮点

情感细腻感知：在 EQ-Bench3 情感智能测试中荣获 1586 分，展现出更深层次的同理心和人际交往技巧，能够精准捕捉用户的情感需求并作出贴切回应。
创意文采飞扬：在创意写作 v3 基准测试中斩获 1722 分，比 xAI 此前的最佳成绩提升了惊人的 600 分，能够生成更富想象力和吸引力的文字内容。
深度思考模式 (quasarflux)：在生成回应前进行周密的推理，特别适合处理复杂任务，尽管响应时间可能稍长，但其决策的严谨性毋庸置疑。
即时响应模式 (tensor)：直接生成答案，响应速度极快，并且在基准测试中，其表现已超越了其他模型的全面推理配置。
错误率锐减：Grok 4.1 的幻觉率从 Grok 4 的 12% 骤降至 4.2%，成为迄今为止最少出现偏差的 Grok 模型。
事实核查能力增强：在包含 500 个个人传记问题的 FActScore 测试中，Grok 4.1 的非推理模式相较于前代产品有了显著的进步。
意图洞察敏锐：对用户细微指令的感知更为精准，能够更准确地把握用户的真实意图。
对话自然流畅：个性和回应风格更加统一和连贯，提供更具吸引力的对话体验。