AI工具

KeySync

KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分辨率口型同步框架,支持将输入音频与视频中的口型动作对齐。KeySync 基于两阶段框架实现,首先生成关...
阅读原文

HoloTime

HoloTime 是北京大学深圳研究生院和鹏城实验室推出的全景 4D 场景生成框架,基于视频扩散模型将单张全景图像转化为具有真实动态效果的全景视频,进一步重建为...
阅读原文

Hula

Hula 是 Prequel Inc. 推出的 AI 视频生成工具,通过简单操作将用户的静态照片或视频转换为创意内容。用户可以通过上传照片,变成动态视频,例如模拟在巴黎漫...
阅读原文

T2I-R1

T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低...
阅读原文

X-Fusion

X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,...
阅读原文

ScienceOne

ScienceOne是中国科学院自动化研究所联合多家单位及产业化平台共同研发的智能科研平台。基于科学基础大模型构建,推动多学科协同的智能科研新范式,赋能科研...
阅读原文

Phi-4-reasoning

Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理...
阅读原文

Rabbithole

Rabbithole 是专注于历史探索的智能问答平台,通过对话式交互帮助用户深入了解各种历史事件和话题。用户可以登录平台后,选择预设问题或输入自己的问题,与智...
阅读原文

Peek

Peek 是创新AI驱动的个人财务管理应用,通过人工智能技术帮助用户轻松掌控财务状况,注重情感体验和隐私保护。通过与银行账户连接,Peek 能自动记录用户的收...
阅读原文

觅果·Migo

觅果·Migo是AI驱动的学习与研究创新平台,为用户提供高效的知识整合、内容生成和数据分析服务。具备强大的多模态AI能力,支持文本、语言、视觉和数据处理,能...
阅读原文

DianJin-R1

DianJin-R1是阿里云通义点金团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务设计,融合了先进的技术和全面的数据支持。模型通过推理增强监督...
阅读原文

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 开发的轻量级音频模型,基于 Qwen-2.5-1.5B 构建,仅包含 1.5 亿参数。专为长音频处理设计,能支持长达 15 分钟的连续音频输入,无...
阅读原文

DeepSeek-Prover-V2

DeepSeek-Prover-V2 是深度求索团队 DeepSeek 开源的专注于数学推理的超大规模语言模型。包含两个版本:DeepSeek-Prover-V2-671B 和 DeepSeek-Prover-V2-7B,...
阅读原文

VoltAgent

VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管理、...
阅读原文

FeedMe

FeedMe 是专为 Android 设计的离线 RSS 阅读器,支持多种 RSS 订阅源,包括 Feedly、InoReader 等,用户可以轻松添加和管理订阅。FeedMe 的离线功能支持用户...
阅读原文
11920212223229