AI项目和框架
AudioGen-Omni
AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异...
LangExtract
LangExtract 是谷歌开源的用在从非结构化文本中提取结构化信息的 Python 库。LangExtract 用大型语言模型(LLM),自动处理临床笔记、报告等材料,识别并组织...
Qwen-Image
Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行...
MiDashengLM
MiDashengLM是小米开源的高效声音理解大模型,具体参数版本为MiDashengLM-7B 。模型基于 Xiaomi Dasheng 音频编码器和 Qwen2.5-Omni-7B Thinker 解码器构建,...
Windows-MCP
Windows-MCP 是轻量级、开源的 AI Agent与 Windows 系统集成工具。Windows-MCP作为 MCP 服务器,让大语言模型(LLM)能直接操作 Windows,实现文件浏览、应用...
Skywork MindLink
Skywork MindLink是昆仑万维推出开源的推理大模型。具有自适应推理机制,可根据任务复杂度灵活切换推理模式,简单任务快速生成,复杂任务深度推理,兼顾效率...
ScreenCoder
ScreenCoder 是开源的智能 UI 截图转代码系统,支持将任何设计截图快速转换为整洁、可编辑的 HTML/CSS 代码。ScreenCoder用模块化多智能体架构,结合视觉理解...
FastDeploy
FastDeploy 是百度基于飞桨(PaddlePaddle)框架开发的高性能推理与部署工具,专为大语言模型(LLMs)和视觉语言模型(VLMs)设计。FastDeploy 支持多种硬件...
DragonV2.1
DragonV2.1(DragonV2.1Neural) 是微软推出的最新零样本文本到语音(TTS)模型。模型基于 Transformer 架构,支持多语言和零样本语音克隆,仅需 5-90 秒的语...
Wuhr AI Ops
Wuhr AI Ops是智能化运维管理平台,通过AI技术简化复杂的运维任务。平台集成多模态AI助手,支持自然语言交互执行运维命令,能一键切换K8s集群和Linux系统命令...
InteriorGS
InteriorGS 是群核科技推出的高质量的3D高斯语义数据集,包含1000个3D高斯语义场景,涵盖80多种室内环境,如家庭、便利店、婚宴厅和博物馆。数据集包含755个...
Gemini 2.5 Deep Think
Gemini 2.5 Deep Think 是谷歌推出的 AI 模型,专为解决复杂任务设计。是获得 2025 年国际数学奥林匹克竞赛(IMO)金牌的模型的变体,通过并行思考技术(Para...