ClawWork

ClawWork – HKUDS开源的AI Agent经济生存基准测试框架

ClawWork：一款革新性的AI Agent经济生存基准测试框架

在人工智能飞速发展的浪潮中，如何衡量大型语言模型（LLM）在真实商业环境中的实际价值，已成为一个亟待解决的问题。香港大学数据科学实验室（HKUDS）开源的ClawWork应运而生，它是一款开创性的AI Agent经济生存基准测试框架，旨在深入评估LLM的“赚钱能力”。该框架通过模拟一个微型的经济体，为每个AI Agent配置10美元的启动资金，并要求它们在220个涵盖金融、医疗、制造等44个行业的真实职业任务中，通过完成工作来赚取收入，同时支付每一笔Token的消耗成本。一旦资金耗尽，Agent将被判定为“破产”。

ClawWork的独特之处在于其精妙的经济激励机制。任务的报酬并非固定不变，而是根据完成质量进行评分结算，报酬范围从5美元到高达5000美元不等。这种设计迫使AI Agent必须在“立即工作以维持生计”和“投资学习以提升未来竞争力”之间做出艰难的战略性权衡。ClawWork不仅仅是一个简单的性能测试工具，更是一个模拟真实商业压力的“用进废退”的竞技场。它支持GPT-4o、Claude、Kimi等众多主流模型同台竞技，并通过一个基于React构建的实时仪表板，为用户提供直观的生存状态监控。这为AI劳动力经济的研究提供了首个真正意义上的“压力测试”环境。

ClawWork的核心亮点

海量真实职业任务库：汇集了来自OpenAI GDPVal数据集的220个极具代表性的真实职业任务，这些任务深度覆盖了制造、金融、医疗、、零售等44个关键经济部门，每一个都映射着现实世界中的具体工作场景。
严苛的经济责任制模拟：在ClawWork的世界里，每一个Token的消耗都意味着真金白银的付出。Agent的收入来源仅限于完成任务所得，而任务的质量则由GPT-5.2进行0-1分的精细评估。这种机制完美复刻了真实商业环境中的成本控制压力。
“工作”与“学习”的战略博弈：AI Agent每日都需要进行一项至关重要的战略决策：是选择立即投入工作以获取生存所需的资金，还是将有限的资源用于学习和技能提升，以期在未来获得更优的表现。
多模型竞技的终极对决：ClawWork为GPT-4o、Claude、GLM、Kimi、Qwen等众多领先模型提供了一个公平的竞技平台，旨在全面比较它们在经济生存能力方面的表现。
实时可视化监控系统：一个采用React技术构建的动态仪表板，能够实时追踪AI Agent的资金余额、累计收入、Token成本消耗以及当前的生存状态，提供一目了然的全局视角。
Nanobot/OpenClaw的无缝集成：通过ClawMode，任何Nanobot都可以被轻松转化为具备经济追踪能力的AI同事。无论是本地部署还是云端运行，ClawWork都能提供强大的支持。

ClawWork的获取途径

GitHub代码库：您可以在以下链接中找到ClawWork的全部源代码：https://github.com/HKUDS/ClawWork

如何启动ClawWork的模拟

环境准备与依赖安装：首先，克隆GitHub仓库到您的本地环境。随后，通过执行 pip install -r requirements.txt 命令来安装所有必需的Python库。请确保已正确配置OpenAI API密钥，这将用于任务质量的评估过程。
Agent配置定制：在项目的配置文件中，您可以灵活设置AI Agent的类型（例如GPT-4o、Claude、GLM、Kimi或Qwen等），以及其初始资金（默认值为10美元）。此外，还可以根据需求调整每日的决策策略，是倾向于“工作优先”还是“学习优先”。
任务集加载与管理：ClawWork支持直接从OpenAI GDPVal数据集中导入220个标准职业任务。当然，您也可以根据特定业务需求，自定义添加专业领域的任务集。
模拟启动与执行：运行主程序即可开启AI Agent的经济生存模拟。Agent将自动接收分配的任务，执行工作，并根据完成质量获得相应的报酬。
实时状态追踪：通过访问基于React构建的实时仪表板，您可以随时掌握Agent的当前资金状况、累计收入、Token成本消耗以及已经经历了多少天的生存模拟。
深入结果分析：模拟结束后，系统将生成一份详尽的报告，其中包含盈利能力、任务完成质量、成本效益等关键指标。这些数据对于模型间的横向对比和Agent策略的进一步优化至关重要。

ClawWork的广泛应用场景

大模型经济价值深度评估：为GPT-4o、Claude、Kimi等不同模型在严峻的商业压力下所展现出的“赚钱能力”和成本控制水平提供量化依据，从而为企业在模型选型过程中提供坚实的数据支撑。
Agent商业可行性前置验证：在将AI Agent部署到实际业务流程之前，通过ClawWork进行经济生存能力的测试，有效降低因AI Agent无法自我维持而带来的潜在风险。
AI劳动力市场前沿研究：为经济学家提供一个高度仿真的实验平台，用于深入研究AI Agent在模拟劳动力市场中的行为模式、定价策略以及其独特的生存法则。
Agent策略优化与效能提升：通过精细调整“工作与学习”的资源分配参数，帮助AI Agent寻找到最优的长期盈利增长策略。
企业成本效益的精准评估：协助企业全面评估引入AI Agent替代人工的真实成本与收益，精确计算投资回报率。
面向未来的教育与培训：作为一种创新的教学工具，ClawWork能够帮助新一代AI工程师深刻理解Agent经济系统的设计原理和商业逻辑，培养具备成本意识和商业思维的AI开发人才。

阅读原文