autoresearch

AI工具2分钟前更新 AI工具集
0 0 0

autoresearch – Karpathy 开源的 AI 自主科研实验框架

autoresearch:AI 自主科研的全新范式

autoresearch,由 Andrej Karpathy 倾力打造,是一套开创性的 AI 自主科研实验框架。它赋予 AI Agent 在单块 GPU 上完成 nanochat 模型训练实验的能力。从精细的参数调整,到训练过程的执行,再到评估指标的分析,乃至下一步优化方向的决策,autoresearch 将过去繁琐且耗时的人工循环——调参、跑实验、看日志、再调参——彻底自动化。

autoresearch 的一大亮点在于其极低的入门门槛,单卡即可运行,这使得 AI 不仅是研究的对象,更能化身为开展研究的执行者。

autoresearch 的核心能力揭秘

  • 智能代码迭代:AI Agent 能够直接修改 train.py 文件,自主调整模型结构、优化器选择、超参数设置等训练全流程的配置。
  • 限时实验预算:每次训练严格限制在 5 分钟的实际运行时间,确保实验结果在不同平台间具有高度可比性。
  • 自动优化筛选:以 val_bpb(验证 bits per byte)作为统一的评估指标,自动保留能有效降低该指标的修改,淘汰无效的尝试。
  • 可控的研究组织:通过 program.md 文件定义 Agent 的行为模式和研究策略,人类只需迭代优化“研究组织代码”,而非直接修改底层代码。
  • 聚焦单文件设计:Agent 的修改范围被限制在 train.py 这一个文件,保证了实验的可控性和 diff 的易审查性。

autoresearch 的技术基石

  • 精简 nanochat 训练:在单 GPU 上实现轻量级 GPT 模型训练,集成 Muon 优化器与 AdamW,支持完整的训练流程。
  • BPE 分词与数据流处理prepare.py 负责一次性的数据预处理和 BPE 分词器训练,提供标准化的数据加载和评估工具。
  • 统一的评估指标:采用与词汇表大小无关的 val_bpb 指标,确保不同架构变更后的实验结果能够进行公平比较。
  • 代理-环境闭环机制program.md 作为 Agent 的“技能库”,Agent 读取指令,修改代码,执行训练,评估指标,并据此做出保留或丢弃的决策,形成一个持续迭代的闭环。
  • 时间标准化机制:无论模型大小或批次大小如何变化,训练都固定运行在预设时长内,有效消除了硬件差异对实验可比性的干扰。

踏上 autoresearch 的研究之旅

  • 安装 uv 工具:执行 curl -LsSf https://astral.sh/uv/install.sh | sh 命令,快速安装 uv 项目管理器。
  • 部署项目依赖:在项目根目录下运行 uv sync,一站式完成所有必要的依赖安装。
  • 预备训练数据:执行 uv run prepare.py,下载训练数据并训练 BPE 分词器,这一步只需一次性操作(约 2 分钟)。
  • 验证训练环境:手动运行 uv run train.py,确认单次训练流程能够正常执行(约 5 分钟)。
  • 部署 AI Agent:在您偏好的 IDE 中加载 Claude 或 Codex 等 AI 代理,并将其指向 program.md 文件。
  • 启动自主研究:输入简单的指令,例如 “Hi have a look at program.md and let’s kick off a new experiment”,即可启动自动迭代研究。
  • 审阅研究成果:次日,您可以查阅实验日志和 train.py 的修改历史,深入了解优化过程和改进路径,并获取优化后的模型。

autoresearch 的独特优势

  • 极致简约设计:仅需 prepare.pytrain.pyprogram.md 三个核心文件,无外部依赖,单 GPU 即可流畅运行。
  • 公平的实验比较:固定的 5 分钟时间预算和不依赖词汇表的指标,确保所有架构修改都能在同一基准下进行评估。
  • 高效的人机协同:人类通过 program.md 设定宏观研究策略,Agent 则负责执行具体的代码实验,实现“人类定方向,AI 做实验”的高效分工。
  • 高吞吐量的实验效率:每小时可进行约 12 次实验,一夜之间即可完成近 100 次自动迭代,极大地超越了传统手动实验的效率。
  • 清晰的可审查性:单文件修改模式使得每次实验的改动(diff)都清晰可见,便于深入理解 Agent 的改进逻辑和研究路径。

autoresearch 项目地址

  • GitHub 仓库:https://github.com/karpathy/autoresearch

autoresearch 与同类竞品的横向对比

对比维度autoresearchSciClaw
产品定位专注于 LLM 训练的自主研究代理通用科研领域的 AI 伙伴 / 全周期研究编排系统
核心任务自动修改训练代码、调整超参数、执行实验、筛选改进文献调研、实验设计、计算模拟、论文撰写、审稿回复
研究对象nanochat 模型训练(单 GPU 深度学习)生命科学、化学、物理、材料等跨学科科研任务
实验执行直接修改 Python 代码并运行训练循环自主拆解任务、调用科学工具、运行计算模拟、对接实验设备
评估机制固定 5 分钟训练 + val_bpb 指标自动筛选保留/丢弃实验结果分析、论文质量评估、假说验证
知识库无,每次实验基于代码和指标决策长期记忆项目数据、实验记录、文献、邮件历史
硬件要求单块 NVIDIA GPU云端运行或本地部署,支持 AI 眼镜和自动化实验设备
交互方式通过 program.md 指令文件 + AI 代理自动执行对话式交互(Web/飞书/钉钉/Telegram/Discord)
开源性MIT 完全开源闭源产品(内测需邀请码)
目标用户AI 研究者、LLM 训练工程师科研人员、博士生、企业研发部门
输出成果优化后的模型权重 + 实验日志论文草稿、PPT、海报、审稿回复、实验报告
自主性深度代码级自动迭代,但限于单一训练任务项目级全周期编排,支持耗时数天的后台实验与自我修复

autoresearch 的应用场景展望

  • LLM 训练超参自动搜寻:自动化探索学习率、批次大小、模型深度等参数组合,高效寻得最优配置。
  • 创新架构快速验证:快速评估新型注意力机制、位置编码或优化器变体的实际性能表现。
  • 低成本模型优化:在单 GPU 环境下实现小模型的性能自动优化,特别适合个人研究者或资源受限的团队。
  • AI 研究方探索:作为自主 AI 研究代理的实验平台,为探索“AI 科学家”的可能性边界提供实践基础。
阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...