AI项目和框架

Granite-Docling-258M – IBM推出的轻量级视觉语言模型

Granite-Docling-258M 是 IBM 推出的轻量级视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。
阅读原文

LSP(Language Self-Play)

LSP(Language Self-Play)是Meta提出的一种强化学习方法,解决大型语言模型对大量高质量训练数据的依赖问题。LSP的核心思想是利用自我博弈的方式,让同一模...
阅读原文

TrafficVLM

TrafficVLM是高德导航推出的基于大模型技术的交通视觉语言模型,通过交通孪生还原能力,将海量实时交通数据转化为动态孪生视频流,构建出与现实世界同步的“数...
阅读原文

DeepSeek-R1-Safe

DeepSeek-R1-Safe 是浙江大学网络空间安全学院和华为合作推出的基于DeepSeek衍生的安全大模型。模型基于华为昇腾芯片和 MindSpeedLLM 框架,通过构建安全语料...
阅读原文

Kronos

Kronos 是首个面向金融市场的 K 线图基础模型,由清华大学与微软亚洲研究院联合开源。通过分析股票、加密货币等资产的 K 线数据,包括开盘价、最高价、最低价...
阅读原文

OneSearch

OneSearch 是快手推出的电商搜索端到端生成式框架,优化传统电商搜索的级联式架构,提升搜索精准度和用户体验。三大创新点包括:关键词增强层次量化编码(KHQ...
阅读原文

Codexia

Codexia是强大的跨平台AI编码桌面应用程序,支持为OpenAI Codex CLI提供图形界面和工具集,增强开发体验。
阅读原文

Lego-Edit

Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模...
阅读原文

FastMTP

FastMTP 是腾讯自研的大语言模型(LLM)推理加速技术,通过优化多标记预测(MTP)技术,用共享权重的单 MTP 头替代传统多独立模块,结合语言感知词汇压缩和自...
阅读原文

Xiaomi-MiMo-Audio

Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL...
阅读原文

Lucy Edit Dev

Lucy Edit Dev 是 Decart AI 团队开源的基于文本指令的视频编辑模型。能根据简单的文本提示对视频进行多种编辑操作,如更改服装、替换角色、插入对象和转换场...
阅读原文

Wan2.2-Animate

Wan2.2-Animate是阿里通义团队推出的动作生成模型,模型同时支持动作模仿和角色扮演两种模式,能基于表演者的视频,精确复制面部表情和动作,生成高度逼真的...
阅读原文

Ling-V2

Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。
阅读原文

VoxCPM

VoxCPM 是面壁智能与清华大学深圳国际研究生院联合开发的 0.5B 参数语音生成模型。在语音合成的自然度、音色相似度及韵律表现力方面达到了业界顶尖水平。VoxC...
阅读原文

InternVLA-A1

InternVLA-A1 是上海人工智能实验室和国家地方共建人形机器人创新中心联合发布的具身操作大模型。具备理解、想象、执行一体化的能力,能精准地完成任务。模型...
阅读原文
11213141516157