深度学习 - OpenI

imini AI

全球顶尖无限AI聊天一站式超级AI智能体

awesome-nano-banana

优秀的图像生成与编辑模型，展示 AI 艺术的新可能。

AIVO3.com

将文本或图像转换为具有声音的Veo3 AI影片

蓝耘元生代MaaS

专注于 GPU 算力云服务，提供高效算力解决方案。

FlexHeadFA

快速且内存高效的精确注意力机制

Blip 3o

此应用可根据文本描述生成图像，或提供现有图像的描述和答案。

parakeet-tdt-0.6b-v2

一款高质量的英语自动语音识别模型，支持标点符号和时间戳预测。

CameraBench

用于理解任意视频中的相机运动的工具。

F Lite

F Lite 是一款 10B 参数的扩散模型，专注于合法和安全内容。

Describe Anything

一个基于深度学习的图像和视频描述模型。

Nes2Net

轻量级嵌套架构，用于语音反欺诈。

FramePack

用于视频生成的下一帧预测模型。

Wan2.1-FLF2V-14B

开源视频生成模型，支持多种生成任务。

GLM-4-32B

强大的语言模型，支持多种自然语言处理任务。

Pusa

Pusa 是一个新颖的视频扩散模型，支持多种视频生成任务。

VisualCloze

一种通过视觉上下文学习的通用图像生成框架。

EasyControl

为 Diffusion Transformer 提供高效灵活的控制框架。

彩云翻译

彩云科技推出的AI翻译工具，提供高效、精准的翻译服务，支持多种语言之间的互译，适用于多种应用场景。

混元T1

业界首个超大规模混合 Mamba 推理模型，强推理能力。

Pruna

Pruna 是一个模型优化框架，帮助开发者快速高效交付模型。

InfiniteYou

实现灵活且高保真度的图像生成，同时保持身份特征。

LighTDiff

一种用于手术内窥镜图像低光照增强的T-Diffusion模型。

DeepResearch123

AI研究资源导航网站，提供AI研究资源、文档和实践案例

长上下文调优（LCT）

一种提升场景级视频生成能力的技术。

Tarsier

Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。

Video Depth Anything

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

LLaSA_training

LLaSA：扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量

YuE-s1-7B-anneal-en-cot

YuE是一个开源的音乐生成模型，能够将歌词转化为完整的歌曲。

Momodel.cn

在线学习Python、AI、大模型、AI写作绘画课程，零基础轻松入门。

Huginn-0125

Huginn-0125是一个35亿参数的潜变量循环深度模型，擅长推理和代码生成。

QwQ-Max-Preview

QwQ-Max-Preview 是 Qwen 系列的最新成果，基于 Qwen2.5-Max 构建，具备强大的推理和多领域应用能力。

VideoLLaMA3

VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。