AI项目和框架

Step-Audio-TTS-3B

Step-Audio-TTS-3B 是 Stepfun-AI 团队推出的高性能文本到语音(TTS)模型,具有强大的语音合成能力。基于海量合成数据训练,参数量达到30亿,能生成自然流畅...
阅读原文

SWE-Lancer

SWE-Lancer 是 OpenAI 推出的大模型基准测试,评估前沿语言模型(LLMs)在自由职业软件工程任务中的表现。包含来自 Upwork 的 1400 多个任务,总价值达 100 ...
阅读原文

DynamicCity

DynamicCity 是上海AI Lab推出的大规模动态场景生成的4D生成框架。DynamicCity 专注于生成具有语义信息的动态 LiDAR 场景,能处理大规模空间(80×80×6.4 m³)...
阅读原文

MoBA

MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(bl...
阅读原文

RSIDiff

RSIDiff 是用于提升文本到图像扩散模型性能的递归自训练(RSI)框架。通过迭代优化模型,基于模型自身生成的数据进行训练,解决传统自训练中常见的训练崩溃问...
阅读原文

Kimi Latest

Kimi Latest是月之暗面Kimi推出的实时更新AI模型,为用户提供同步对标Kimi智能助手的模型体验。支持128k上下文长度,可根据输入自动选择8k、32k或128k模型进...
阅读原文

Omnitool

Omnitool是开源的AI桌面环境,为用户提供统一的交互界面,能快速接入和使用多种AI模型。Omnitool支持本地运行,能在Mac、Windows或Linux设备上安装,数据存储...
阅读原文

Qihoo-T2X

Qihoo-T2X 是360 AI 研究院和中山大学推出的基于代理标记化扩散 Transformer(PT-DiT)的高效多模态生成模型,Qihoo-T2X引入稀疏代理标记注意力机制,显著降...
阅读原文

Grok-3

Grok-3是埃隆·马斯克旗下xAI公司推出的最新一代人工智能模型,模型被马斯克称为“地球上最聪明的人工智能”,推理能力在多项基准测试中超越了包括ChatGPT和Deep...
阅读原文

LangFlow

LangFlow 是低代码、可视化的 AI 应用构建工具,用于快速搭建和实验 LangChain 流水线。通过拖拽式界面,用户能轻松创建复杂的 AI 工作流,无需编写大量代码...
阅读原文

SkyReels-A1

SkyReels-A1是昆仑万维开源的中国首个SOTA(State-of-the-Art)级别的基于视频基座模型的表情动作可控算法。SkyReels-A1能实现更精准可控的人物视频生成,能...
阅读原文

Mistral Saba

Mistral Saba 是法国 Mistral AI 推出的专注于中东和南亚地区语言及文化的区域定制 AI 模型。模型拥有 240 亿参数,规模虽小,在处理阿拉伯语和印度起源语言...
阅读原文

Finedefics

Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型,提升多模态大语言模型(MLLMs)在细粒度视觉识别(FGVR)任务中的表现。模型通过引入对象的...
阅读原文

Step-Audio

Step-Audio是阶跃星辰团队推出的首个产品级的开源语音交互模型,能根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高...
阅读原文

Matrix3D

Matrix3D 是南京大学、苹果公司和香港科技大学合作推出的新型的统一摄影测量模型,能在一个模型中完成多个摄影测量子任务,包括姿态估计、深度预测和新视图合...
阅读原文
14748495051131