业界首个超大规模混合 Mamba 推理模型,强推理能力。
Pruna 是一个模型优化框架,帮助开发者快速高效交付模型。
实现灵活且高保真度的图像生成,同时保持身份特征。
一种用于手术内窥镜图像低光照增强的T-Diffusion模型。
AI研究资源导航网站,提供AI研究资源、文档和实践案例
一种提升场景级视频生成能力的技术。
Tarsier 是由字节跳动推出的用于生成高质量视频描述的大型视频语言模型。
Video Depth Anything: Consistent Depth Estimation for Super-Long Videos
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
YuE是一个开源的音乐生成模型,能够将歌词转化为完整的歌曲。
在线学习Python、AI、大模型、AI写作绘画课程,零基础轻松入门。
Huginn-0125是一个35亿参数的潜变量循环深度模型,擅长推理和代码生成。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基于 Qwen2.5-Max 构建,具备强大的推理和多领域应用能力。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
一种新颖的图像到视频采样技术,基于Hunyuan模型实现高质量视频生成。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
HunyuanVideo-I2V 是腾讯推出的基于 HunyuanVideo 的图像到视频生成框架。
Inductive Moment Matching 是一种新型的生成模型,用于高质量图像生成。
一种无混叠的任意尺度超分辨率方法。
Frames 是 Runway 推出的高级图像生成基础模型,提供前所未有的风格控制和视觉保真度。
OmniThink 是一种通过模拟人类思考过程来提升机器写作知识密度的框架。
一个基于文本生成图像的预训练模型,具有80亿参数和Apache 2.0开源许可。
一款基于Midjourney风格的文本到图像生成模型,专注于高分辨率和写实风格的图像创作。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
一种非侵入式脑机接口技术,通过脑电图或脑磁图解码大脑活动以实现文本输入。
CogView4-6B 是一个强大的文本到图像生成模型,专注于高质量图像生成。
Moonlight平台集AI图像生成、音乐创作和脚本编写于一体,满足用户多元化内容创作需求。
奇智孔明AInnoGC工业大模型赋能制造业,提供全面的AI解决方案,提升生产效率和智能化水平。
GPT中文免费版提供AI文字生图功能,创作便捷,效果尚可。
生数利用多模态大模型赋能艺术设计、游戏、影视和内容社交领域。
智谱AI绘画,提供个性化图像创作与编辑,支持多种艺术风格模仿。