AI项目和框架

Mogao

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解...
阅读原文

Scenethesis

Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM ...
阅读原文

FunGPT

FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独...
阅读原文

SuperEdit

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperE...
阅读原文

FlowGram.AI

FlowGram 是字节跳动开源的基于节点编辑的前端流程搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工作流...
阅读原文

VITA-Audio

VITA-Audio 是开源的端到端多模态语音大模型,具有低延迟、推理速度快的特点。通过轻量级的多模态交叉标记预测(MCTP)模块,可在首次前向传播中生成音频输出...
阅读原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
阅读原文

Multiverse

Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模...
阅读原文

Open Code Reasoning

Open Code Reasoning(OCR)是英伟达开源的代码推理AI模型,基于Nemotron架构,专为提升代码推理和生成能力设计。OCR包含32B、14B和7B三种模型版本,分别适用...
阅读原文

KuaiMod

KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动...
阅读原文

WebThinker

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行...
阅读原文

DeerFlow

DeerFlow 是字节跳动开源的深度研究框架,能帮助用户高效完成复杂的研究任务。DeerFlow结合语言模型与多种工具,如网络搜索、爬虫和 Python 执行,能快速生成...
阅读原文

Chatlog

Chatlog是开源的聊天记录分析工具,支持高效解析、可视化和挖掘微信、QQ、Telegram等主流聊天工具的聊天记录。工具支持从本地数据库文件获取数据,提供智能分...
阅读原文

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,基于强化学习激励大模型的搜索能力,无需与真实搜索引擎交互。框架爱基于大模型预训练知识,...
阅读原文

HunyuanCustom

HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体和场景...
阅读原文
123113