autoresearch – Karpathy 开源的 AI 自主科研实验框架
autoresearch:AI 自主科研的全新范式
autoresearch,由 Andrej Karpathy 倾力打造,是一套开创性的 AI 自主科研实验框架。它赋予 AI Agent 在单块 GPU 上完成 nanochat 模型训练实验的能力。从精细的参数调整,到训练过程的执行,再到评估指标的分析,乃至下一步优化方向的决策,autoresearch 将过去繁琐且耗时的人工循环——调参、跑实验、看日志、再调参——彻底自动化。
autoresearch 的一大亮点在于其极低的入门门槛,单卡即可运行,这使得 AI 不仅是研究的对象,更能化身为开展研究的执行者。
autoresearch 的核心能力揭秘
- 智能代码迭代:AI Agent 能够直接修改
train.py文件,自主调整模型结构、优化器选择、超参数设置等训练全流程的配置。 - 限时实验预算:每次训练严格限制在 5 分钟的实际运行时间,确保实验结果在不同平台间具有高度可比性。
- 自动优化筛选:以
val_bpb(验证 bits per byte)作为统一的评估指标,自动保留能有效降低该指标的修改,淘汰无效的尝试。 - 可控的研究组织:通过
program.md文件定义 Agent 的行为模式和研究策略,人类只需迭代优化“研究组织代码”,而非直接修改底层代码。 - 聚焦单文件设计:Agent 的修改范围被限制在
train.py这一个文件,保证了实验的可控性和 diff 的易审查性。
autoresearch 的技术基石
- 精简 nanochat 训练:在单 GPU 上实现轻量级 GPT 模型训练,集成 Muon 优化器与 AdamW,支持完整的训练流程。
- BPE 分词与数据流处理:
prepare.py负责一次性的数据预处理和 BPE 分词器训练,提供标准化的数据加载和评估工具。 - 统一的评估指标:采用与词汇表大小无关的
val_bpb指标,确保不同架构变更后的实验结果能够进行公平比较。 - 代理-环境闭环机制:
program.md作为 Agent 的“技能库”,Agent 读取指令,修改代码,执行训练,评估指标,并据此做出保留或丢弃的决策,形成一个持续迭代的闭环。 - 时间标准化机制:无论模型大小或批次大小如何变化,训练都固定运行在预设时长内,有效消除了硬件差异对实验可比性的干扰。
踏上 autoresearch 的研究之旅
- 安装 uv 工具:执行
curl -LsSf https://astral.sh/uv/install.sh | sh命令,快速安装 uv 项目管理器。 - 部署项目依赖:在项目根目录下运行
uv sync,一站式完成所有必要的依赖安装。 - 预备训练数据:执行
uv run prepare.py,下载训练数据并训练 BPE 分词器,这一步只需一次性操作(约 2 分钟)。 - 验证训练环境:手动运行
uv run train.py,确认单次训练流程能够正常执行(约 5 分钟)。 - 部署 AI Agent:在您偏好的 IDE 中加载 Claude 或 Codex 等 AI 代理,并将其指向
program.md文件。 - 启动自主研究:输入简单的指令,例如 “Hi have a look at program.md and let’s kick off a new experiment”,即可启动自动迭代研究。
- 审阅研究成果:次日,您可以查阅实验日志和
train.py的修改历史,深入了解优化过程和改进路径,并获取优化后的模型。
autoresearch 的独特优势
- 极致简约设计:仅需
prepare.py、train.py和program.md三个核心文件,无外部依赖,单 GPU 即可流畅运行。 - 公平的实验比较:固定的 5 分钟时间预算和不依赖词汇表的指标,确保所有架构修改都能在同一基准下进行评估。
- 高效的人机协同:人类通过
program.md设定宏观研究策略,Agent 则负责执行具体的代码实验,实现“人类定方向,AI 做实验”的高效分工。 - 高吞吐量的实验效率:每小时可进行约 12 次实验,一夜之间即可完成近 100 次自动迭代,极大地超越了传统手动实验的效率。
- 清晰的可审查性:单文件修改模式使得每次实验的改动(diff)都清晰可见,便于深入理解 Agent 的改进逻辑和研究路径。
autoresearch 项目地址
- GitHub 仓库:https://github.com/karpathy/autoresearch
autoresearch 与同类竞品的横向对比
| 对比维度 | autoresearch | SciClaw |
|---|---|---|
| 产品定位 | 专注于 LLM 训练的自主研究代理 | 通用科研领域的 AI 伙伴 / 全周期研究编排系统 |
| 核心任务 | 自动修改训练代码、调整超参数、执行实验、筛选改进 | 文献调研、实验设计、计算模拟、论文撰写、审稿回复 |
| 研究对象 | nanochat 模型训练(单 GPU 深度学习) | 生命科学、化学、物理、材料等跨学科科研任务 |
| 实验执行 | 直接修改 Python 代码并运行训练循环 | 自主拆解任务、调用科学工具、运行计算模拟、对接实验设备 |
| 评估机制 | 固定 5 分钟训练 + val_bpb 指标自动筛选保留/丢弃 | 实验结果分析、论文质量评估、假说验证 |
| 知识库 | 无,每次实验基于代码和指标决策 | 长期记忆项目数据、实验记录、文献、邮件历史 |
| 硬件要求 | 单块 NVIDIA GPU | 云端运行或本地部署,支持 AI 眼镜和自动化实验设备 |
| 交互方式 | 通过 program.md 指令文件 + AI 代理自动执行 | 对话式交互(Web/飞书/钉钉/Telegram/Discord) |
| 开源性 | MIT 完全开源 | 闭源产品(内测需邀请码) |
| 目标用户 | AI 研究者、LLM 训练工程师 | 科研人员、博士生、企业研发部门 |
| 输出成果 | 优化后的模型权重 + 实验日志 | 论文草稿、PPT、海报、审稿回复、实验报告 |
| 自主性深度 | 代码级自动迭代,但限于单一训练任务 | 项目级全周期编排,支持耗时数天的后台实验与自我修复 |
autoresearch 的应用场景展望
- LLM 训练超参自动搜寻:自动化探索学习率、批次大小、模型深度等参数组合,高效寻得最优配置。
- 创新架构快速验证:快速评估新型注意力机制、位置编码或优化器变体的实际性能表现。
- 低成本模型优化:在单 GPU 环境下实现小模型的性能自动优化,特别适合个人研究者或资源受限的团队。
- AI 研究方探索:作为自主 AI 研究代理的实验平台,为探索“AI 科学家”的可能性边界提供实践基础。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号