LifeSim

LifeSim – 复旦与上海创智学院推出的长程用户生活模拟框架

LifeSim：革新AI助手评测的深度生活模拟框架

在人工智能飞速发展的浪潮中，个性化AI助手正日益渗透到我们生活的方方面面。然而，如何客观、全面地衡量这些助手在真实、动态场景下的表现，却一直是行业面临的严峻挑战。由复旦大学与上海创智学院联合推出的LifeSim，正是为了这一难题而生。它并非简单的对话生成器，而是一个首创的长程用户生活模拟框架，旨在为个性化AI助手提供一个高度仿真、深度洞察的评测环境。

LifeSim的核心在于其对用户内在认知与外在环境的精妙建模。它巧妙地借鉴了BDI（Belief-Desire-Intention，信念-愿望-意图）认知模型，不仅模拟用户根深蒂固的信念、迫切的愿望以及明确的意图，更将时间、地点、天气等外部环境因素纳入考量。通过这种多维度、精细化的建模，LifeSim能够生成一系列连贯且富有逻辑的生活轨迹，并支持与AI助手进行多轮次的真实交互。

LifeSim的独特之处

模拟真实生活轨迹：LifeSim能够基于真实的出行数据，构建出用户一整天的生活序列。从清晨的起床到夜晚的入睡，每一个环节都受到时间、地点、天气等外部条件的制约，力求还原真实世界的复杂性。
深入交互行为模拟：它不只是简单的问答，而是能够模拟用户与AI助手之间自然流畅的对话。更重要的是，LifeSim能够检测对话中的记忆冲突，推理用户的情绪变化，并基于动态的认知状态做出行为选择，使得交互更具人性化。
严苛的个性化能力评测：通过精心设计的LifeSim-Eval基准，其中包含了1200个覆盖8大生活领域的场景，LifeSim能够精准测试AI助手在理解用户显性（直接表达）与隐性（需推理）意图方面的能力，以及在长期互动中保持用户偏好一致性的表现。这有效解决了以往评测方法与真实应用场景脱节的弊端。
高质量隐私安全数据合成：LifeSim拥有一个庞大的用户画像库，可以生成数百万级别、高度多样化的用户画像。这些合成数据为训练个性化AI助手提供了宝贵的资源，同时规避了真实用户数据的隐私风险。

LifeSim的技术驱动力

LifeSim的强大功能得益于其精密的内部引擎设计：

信念引擎（Belief Engine）：整合了用户长期的画像信息与当前情境下的认知状态，包括物理、心理和环境因素，形成对世界的整体认知。
愿望引擎（Desire Engine）：从预设的需求库中检索可能的意图，并结合用户的信念和外部环境，对这些意图进行优先级排序，从而确定用户当前最可能产生的愿望。
引擎（Event Engine）：通过复杂的逻辑函数控制触发的概率，确保生成的生活既符合用户的内在逻辑，也遵循真实世界的时间和空间约束。
行为引擎（Action Engine）：这是一个三阶段的处理流程，首先通过“记忆感知”来识别并处理历史信息中的潜在冲突；接着利用“情绪推理”模块（基于GoEmotions分类器）来理解用户的情绪状态；最后，结合以上所有信息，做出最恰当的“行动选择”，生成用户的响应。

如何体验LifeSim的魅力

无论是开发者还是研究者，都可以通过以下方式深入了解和使用LifeSim：

在线Demo体验：
- 访问官方网站 http://fudan-disc.com/lifesim/，即可进入直观的可视化操作界面。
- 您可以选择系统预设的用户画像，在地图和时间轴上任意点击一个生活节点，即可查看当时的场景，并与模拟用户展开对话。
- 更进一步，您可以自定义用户的年龄、职业、人格特质等画像信息，实时观察LifeSim的BDI引擎如何动态生成生活，并与之进行交互。
本地部署进行评测：
- 首先，请按照指引准备好必要的Python环境和依赖，并下载用户画像与生活数据。
- 接着，配置您的模型，可以将用户模拟模型（如Qwen3-32B）与待评测的AI助手模型（支持vLLM本地部署或通过OpenAI/DeepSeek等API接入）进行连接。
- 然后，选择是进行单场景的对话测试，还是开启带历史记忆的长程模式。系统将自动为您生成详尽的对话日志。
- 最后，利用LLM-as-Judge等工具，对意图识别、隐性需求满足、画像对齐等7个关键维度进行自动评分，获得量化评估结果。

LifeSim的关键亮点与使用前提

精准定位：LifeSim是市面上首个专注于长程用户生活模拟的框架，其核心使命是为个性化AI助手在真实、动态场景下的表现提供一个可靠的评测标准。
技术基石：其核心技术基于BDI认知模型，通过融合外部环境（时间、地点、天气）与内部认知状态（人格、偏好、记忆），来预测和生成用户行为。
数据实力：拥有数百万级别用户画像池、3,374条真实轨迹数据以及1,200个覆盖8大生活领域的标准化评测场景。
评测焦点：特别关注模型区分显性与隐性意图的能力，并支持长达16K token的超长对话历史上下文，这对于理解用户的长期偏好至关重要。
研发背景：由复旦大学数据科学学院与上海创智学院联合研发，拥有坚实的学术背景和研究实力。

LifeSim的独特价值

填补真实场景评估的空白：它打破了现有评测方法在静态场景和短上下文上的局限，首次实现了跨越数天甚至数周的长程生活轨迹模拟，让AI助手的评测真正接近“贾维斯”式的连续场景。
深刻的BDI认知架构：LifeSim并非简单的角色扮演，而是深入模拟用户“如何思考”（认知状态），基于BDI模型生成具有内在一致性的人格和行为链。
显隐性意图的双重挑战：通过设计需要结合天气、地点、历史偏好才能推断的隐性意图，LifeSim揭示了当前大型语言模型在长期用户理解方面普遍存在的20+分的性能差距。
物理与认知的融合：它独创性地将真实地理轨迹、时间天气等物理约束，与动态心理情绪、记忆遗忘等认知机制相结合，确保生成的生活既符合客观现实，又符合主观心理。

获取LifeSim的途径

GitHub仓库：https://github.com/dfy37/lifesim
arXiv技术论文：https://arxiv.org/pdf/2603.12152
在线体验Demo：http://fudan-disc.com/lifesim/

LifeSim与其他竞品对比分析

对比维度	LifeSim	Generative Agents (Smallville)	AgentBench
核心定位	个性化AI助手长程能力评测基准	虚拟社会沙盒行为观察平台	LLM Agent 工具调用能力评测
时间维度	长程连续（跨天/周级，最长 16K tokens 上下文）	连续时间（无明确上限）	短程任务（单轮或少数轮次）
环境建模	真实物理环境（时间+天气+地理轨迹）+ 认知状态	虚拟2D沙盒环境（游戏式交互）	虚拟工具环境（OS/网页/数据库）
用户建模	BDI认知模型（信念-愿望-意图+大五人格+动态情绪）	记忆流+反思（观察涌现行为）	无（仅测试Agent本身能力）
评测重点	显隐性意图识别、长期偏好对齐、画像还原	社会现象涌现、群体互动模式	工具使用准确率、任务完成效率
交互模式	用户-AI助手对抗对话（可评测第三方模型）	AI智能体间互动（观察型）	AI与虚拟环境交互（任务型）
数据规模	百万级用户画像、1,200标准评测场景	25个智能体、有限预制场景	8个环境、数千测试用例
可复现性	标准化种子场景+自动评分（支持模型横向对标）	开放式观察（结果随机性强，难复现）	固定测试集（可复现）
主要优势	真实生活场景、心理学理论支撑、量化隐性意图能力	群体智能涌现、视觉化社会模拟	工具生态丰富、任务边界清晰
主要局限	仅限单用户-助手二元交互（暂不支持多智能体社会）	缺乏标准化评测指标，难以对比模型优劣	缺乏用户认知建模，不涉及个性化长期服务

LifeSim的广泛应用前景

AI助手能力评测与对标：为GPT-4o、Claude、DeepSeek等模型提供一个“长程个性化”的标准化考场，精确揭示模型在理解隐性意图、保持长期记忆、以及用户画像对齐等方面的极限。
合成数据生成：通过模拟数百万用户，LifeSim能够生成海量、多样化的长期交互对话数据，有效解决真实数据稀缺和隐私敏感问题，为个性化助手微调或强化学习训练提供支持。
智能客服与伴侣AI预训练：在虚拟环境中模拟极端或罕见场景（例如，用户连续多日处于焦虑状态下的求助），可以严苛地测试客服系统的情感支持能力和长期上下文一致性，从而在产品上线前规避潜在风险。
人机交互（HCI）学术研究：为认知科学、社会心理学研究者提供了一个可控的实验平台，用以深入探究不同人格特质（如大五人格）如何影响用户对AI助手的接受度以及信任关系的建立过程。
个性化推荐算法验证：在饮食、健身、育儿等八大生活领域，LifeSim能够验证推荐系统是否能够结合用户的长期偏好和实时情境（例如，结合天气和用户的健身习惯），做出动态、精准的调整。

阅读原文