原标题:“奇葩”编程题,仅OpenAI与一国产模型破解,来看看新AGI路线怎么初露锋芒
文章来源:夕小瑶科技说
内容字数:7377字
AI推理能力的竞赛与进展
随着OpenAI o1的推出,国内外AI领域开始上演了一场推理能力的竞赛。2024年下半年,AI推理能力的提升将成为关注的焦点。近期,有开源项目尝试通过prompt工程提升Claude 3.5的推理能力,但这种方法并未取得理想效果。
OpenAI o1的推理能力
OpenAI o1通过强化学习不断改进其思维链,具备识别和纠正错误、将复杂步骤分解为简单步骤的能力。这种能力并非仅依赖于互联网数据的统计训练,因为互联网数据主要反映了人类思考的结果,而非过程本身。
数学作为推理的例外
数学领域的推理过程在互联网上有丰富的推导实例,这使得AI在数学推理能力上表现优异。然而,其他领域如编程和医学问题则缺乏相应的过程数据,使得AI在这些领域的推理能力提升面临挑战。
编程问题的挑战
笔者提出了一个复杂的Python编程问题,涉及到命令行输入的缓存和中文支持。经过对GPT-4o、Claude 3.5 Sonnet等老一代模型测试,发现它们在处理中文和方向键操作时均表现不佳。这促使笔者尝试新的类o1模型——书生InternThinker。
书生InternThinker的表现
令人惊喜的是,InternThinker在编程问题上表现优异,不仅支持中文输入,还能够有效处理光标移动和历史查询功能。这表明其在推理能力上已接近OpenAI o1模型,且具备较强的代码调试能力。
创新的推理模型构建
InternThinker的成功源于其独特的数据构造方法,通过强基座模型生成思维链候选,再由通用模型监督和改进,最终形成高质量的思维过程数据。同时,上海AI Lab构建了大规模沙盒环境来验证推理任务的正确性,为模型提供了宝贵的反馈信号。
元动作思考范式的应用
InternThinker还引入了元动作思考范式,包含理解、知识回忆、规划、执行、反思和总结等步骤,这使得其推理过程更像经过良好训练的优等生。这种高效的思维模式提升了模型在复杂推理任务中的表现。
总结
书生InternThinker的推出标志着国内推理能力向OpenAI o1模型的靠近,未来的AI推理能力竞赛将更加激烈。对于希望提升推理能力的研究者和开发者而言,InternThinker无疑是一个值得关注的选择。
联系作者
文章来源:夕小瑶科技说
作者微信:
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189