AI项目和框架

Seed1.5-VL

Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编...
阅读原文

PrimitiveAnything

PrimitiveAnything是腾讯人工智能平台部(AIPD)和清华大学联合开发的新型3D形状生成框架。将复杂的3D形状分解为简单的基元元素,通过自回归方式生成这些基元...
阅读原文

OptoChat AI

OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备...
阅读原文

Xianyu AutoAgent

Xianyu AutoAgent 是为闲鱼平台设计的智能客服机器人系统。支持实现7×24小时自动化值守,多专家协同决策、智能议价及上下文感知对话。基于上下文感知技术,管...
阅读原文

Matrix-Game

Matrix-Game是昆仑万维开源的工业界首个10B+空间智能大模型,是Matrix-Zero世界模型中的可交互视频生成大模型。模型基于两阶段训练策略,根据用户输入生成连...
阅读原文

GitFriend

GitFriend 是基于 React、TypeScript 和 AI 技术推出的 AI GitHub 辅助工具,能简化 GitHub 的使用流程,提升开发效率。GitFriend支持基于 AI 聊天功能为用户...
阅读原文

Muyan-TTS

Muyan-TTS 是为播客场景设计的开源文本转语音(TTS)模型。模型预训练超过10万小时的播客音频数据,能实现零样本语音合成,无需大量目标说话人的语音数据可生...
阅读原文

Audio-SDS

Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需...
阅读原文

Seed1.5-Embedding

Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效...
阅读原文

FastVLM

FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著...
阅读原文

ZenCtrl

ZenCtrl 是 Fotographer AI 推出的 AI 图像生成工具,支持从单张图像生成高质量、多视角和多样化场景的图像,无需额外训练数据。
阅读原文

Seed-Coder

Seed-Coder是字节跳动开源的8B规模代码模型系列,提升代码生成与理解能力。包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理...
阅读原文

LegoGPT

LegoGPT 是卡内基梅隆大学推出的乐高积木设计模型,支持基于文本提示生成物理稳定且能构建的乐高积木模型。LegoGPT 基于自回归语言模型和大规模乐高设计数据...
阅读原文

BILIVE

BILIVE 是一款基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的...
阅读原文

LTXV-13B

LTXV-13B 是Lightricks推出的开源 AI 视频生成模型,拥有 130 亿参数。具备极高的生成速度,比同类产品快 30 倍,能在普通消费级显卡(如 4090/5090)上运行...
阅读原文
11617181920131