autoresearch

autoresearch – Karpathy 开源的 AI 自主科研实验框架

autoresearch：AI 自主科研的全新范式

autoresearch，由 Andrej Karpathy 倾力打造，是一套开创性的 AI 自主科研实验框架。它赋予 AI Agent 在单块 GPU 上完成 nanochat 模型训练实验的能力。从精细的参数调整，到训练过程的执行，再到评估指标的分析，乃至下一步优化方向的决策，autoresearch 将过去繁琐且耗时的人工循环——调参、跑实验、看日志、再调参——彻底自动化。

autoresearch 的一大亮点在于其极低的入门门槛，单卡即可运行，这使得 AI 不仅是研究的对象，更能化身为开展研究的执行者。

autoresearch 的核心能力揭秘

智能代码迭代：AI Agent 能够直接修改 train.py 文件，自主调整模型结构、优化器选择、超参数设置等训练全流程的配置。
限时实验预算：每次训练严格限制在 5 分钟的实际运行时间，确保实验结果在不同平台间具有高度可比性。
自动优化筛选：以 val_bpb（验证 bits per byte）作为统一的评估指标，自动保留能有效降低该指标的修改，淘汰无效的尝试。
可控的研究组织：通过 program.md 文件定义 Agent 的行为模式和研究策略，人类只需迭代优化“研究组织代码”，而非直接修改底层代码。
聚焦单文件设计：Agent 的修改范围被限制在 train.py 这一个文件，保证了实验的可控性和 diff 的易审查性。

autoresearch 的技术基石

精简 nanochat 训练：在单 GPU 上实现轻量级 GPT 模型训练，集成 Muon 优化器与 AdamW，支持完整的训练流程。
BPE 分词与数据流处理：prepare.py 负责一次性的数据预处理和 BPE 分词器训练，提供标准化的数据加载和评估工具。
统一的评估指标：采用与词汇表大小无关的 val_bpb 指标，确保不同架构变更后的实验结果能够进行公平比较。
代理-环境闭环机制：program.md 作为 Agent 的“技能库”，Agent 读取指令，修改代码，执行训练，评估指标，并据此做出保留或丢弃的决策，形成一个持续迭代的闭环。
时间标准化机制：无论模型大小或批次大小如何变化，训练都固定运行在预设时长内，有效消除了硬件差异对实验可比性的干扰。

踏上 autoresearch 的研究之旅

安装 uv 工具：执行 curl -LsSf https://astral.sh/uv/install.sh | sh 命令，快速安装 uv 项目管理器。
部署项目依赖：在项目根目录下运行 uv sync，一站式完成所有必要的依赖安装。
预备训练数据：执行 uv run prepare.py，下载训练数据并训练 BPE 分词器，这一步只需一次性操作（约 2 分钟）。
验证训练环境：手动运行 uv run train.py，确认单次训练流程能够正常执行（约 5 分钟）。
部署 AI Agent：在您偏好的 IDE 中加载 Claude 或 Codex 等 AI 代理，并将其指向 program.md 文件。
启动自主研究：输入简单的指令，例如 “Hi have a look at program.md and let’s kick off a new experiment”，即可启动自动迭代研究。
审阅研究成果：次日，您可以查阅实验日志和 train.py 的修改历史，深入了解优化过程和改进路径，并获取优化后的模型。

autoresearch 的独特优势

极致简约设计：仅需 prepare.py、train.py 和 program.md 三个核心文件，无外部依赖，单 GPU 即可流畅运行。
公平的实验比较：固定的 5 分钟时间预算和不依赖词汇表的指标，确保所有架构修改都能在同一基准下进行评估。
高效的人机协同：人类通过 program.md 设定宏观研究策略，Agent 则负责执行具体的代码实验，实现“人类定方向，AI 做实验”的高效分工。
高吞吐量的实验效率：每小时可进行约 12 次实验，一夜之间即可完成近 100 次自动迭代，极大地超越了传统手动实验的效率。
清晰的可审查性：单文件修改模式使得每次实验的改动（diff）都清晰可见，便于深入理解 Agent 的改进逻辑和研究路径。

autoresearch 项目地址

GitHub 仓库：https://github.com/karpathy/autoresearch

autoresearch 与同类竞品的横向对比

对比维度	autoresearch	SciClaw
产品定位	专注于 LLM 训练的自主研究代理	通用科研领域的 AI 伙伴 / 全周期研究编排系统
核心任务	自动修改训练代码、调整超参数、执行实验、筛选改进	文献调研、实验设计、计算模拟、论文撰写、审稿回复
研究对象	nanochat 模型训练（单 GPU 深度学习）	生命科学、化学、物理、材料等跨学科科研任务
实验执行	直接修改 Python 代码并运行训练循环	自主拆解任务、调用科学工具、运行计算模拟、对接实验设备
评估机制	固定 5 分钟训练 + `val_bpb` 指标自动筛选保留/丢弃	实验结果分析、论文质量评估、假说验证
知识库	无，每次实验基于代码和指标决策	长期记忆项目数据、实验记录、文献、邮件历史
硬件要求	单块 NVIDIA GPU	云端运行或本地部署，支持 AI 眼镜和自动化实验设备
交互方式	通过 `program.md` 指令文件 + AI 代理自动执行	对话式交互（Web/飞书/钉钉/Telegram/Discord）
开源性	MIT 完全开源	闭源产品（内测需邀请码）
目标用户	AI 研究者、LLM 训练工程师	科研人员、博士生、企业研发部门
输出成果	优化后的模型权重 + 实验日志	论文草稿、PPT、海报、审稿回复、实验报告
自主性深度	代码级自动迭代，但限于单一训练任务	项目级全周期编排，支持耗时数天的后台实验与自我修复