AI项目和框架

HunyuanPortrait

HunyuanPortrait 是腾讯 Hunyuan 团队联合清华大学、中山大学和香港科技大学等机构共同推出的基于扩散模型的框架,用在生成高度可控且逼真的肖像动画。基于给...
阅读原文

PC Agent-E

PC Agent-E是上海交通大学和SII联合推出的高效智能体训练框架。框架用312条人类标注的计算机使用轨迹,基于Claude 3.7 Sonnet模型合成多样化的行动决策,显著...
阅读原文

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,能提升大型语言模型(LLM)和多模态大型语言模型(MLLM)在不同任...
阅读原文

WonderPlay

WonderPlay 是斯坦福大学联合犹他大学推出的新型框架,支持从单张图片和用户定义的动作生成动态3D场景。基于结合物理模拟和视频生成技术,用物理求解器模拟粗...
阅读原文

LMEval

LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic...
阅读原文

LLaDA-V

LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视...
阅读原文

Company Research Agent

Company Research Agent是基于多智能体框架的公司研究工具,支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据...
阅读原文

Direct3D-S2

Direct3D-S2 是南京大学、DreamTech、复旦大学和牛津大学的研究人员共同推出的高分辨率 3D 生成框架,基于稀疏体积表示和创新的空间稀疏注意力(SSA)机制,...
阅读原文

QwenLong-L1

QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知...
阅读原文

AgenticSeek

AgenticSeek是完全本地化的开源AI助手,也是 Manus 的开源平替。AgenticSeek能在本地设备上自主执行任务,如浏览网页、编写代码、规划复杂项目等,所有数据和...
阅读原文

Slidev

Slidev 是开源的幻灯片制作工具,基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片,支持代码高亮、实时编码演示、数学公式渲染、...
阅读原文

Morphik

Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPal...
阅读原文

MTVCrafter

MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行...
阅读原文

Pixel Reasoner

Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。
阅读原文

SurfSense

SurfSense 是开源的 AI 研究工具,类似于 NotebookLM 和 Perplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitH...
阅读原文
11011121314131