AI项目和框架

T2I-R1

T2I-R1 是香港中文大学和上海AI Lab联合推出的新型文本生成图像模型。基于引入双层推理机制,语义级链式思维(CoT)和 Token 级 CoT,实现高层次图像规划与低...
阅读原文

X-Fusion

X-Fusion 是加州大学洛杉矶分校、威斯康星大学麦迪逊分校和 Adobe Research 联合提出的多模态融合框架,将预训练的大型语言模型(LLMs)扩展到多模态任务中,...
阅读原文

Phi-4-reasoning

Phi-4-reasoning 是微软推出的 140 亿参数的推理模型,专为复杂推理任务设计。通过监督微调(SFT)训练而成,使用了 OpenAI 的 o3-mini 模型生成的高质量推理...
阅读原文

DianJin-R1

DianJin-R1是阿里云通义点金团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务设计,融合了先进的技术和全面的数据支持。模型通过推理增强监督...
阅读原文

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 开发的轻量级音频模型,基于 Qwen-2.5-1.5B 构建,仅包含 1.5 亿参数。专为长音频处理设计,能支持长达 15 分钟的连续音频输入,无...
阅读原文

DeepSeek-Prover-V2

DeepSeek-Prover-V2 是深度求索团队 DeepSeek 开源的专注于数学推理的超大规模语言模型。包含两个版本:DeepSeek-Prover-V2-671B 和 DeepSeek-Prover-V2-7B,...
阅读原文

VoltAgent

VoltAgent 是开源的 TypeScript 框架,用在构建和编排 AI Agent。VoltAgent 提供构建 AI 应用的基础结构和工具,简化与大语言模型(LLM)的交互、状态管理、...
阅读原文

Rowboat

Rowboat 是开源的低代码 AI IDE,专注于构建多智能体助手的 MCP(多云平台)工具。通过可视化界面和 AI 辅助开发功能,帮助用户快速设计、配置和测试智能体工...
阅读原文

Qwen2.5-Omni-3B

Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5-Omni-7B 的精简版,专为消费级硬件设计,支持文本、音频、图像和视频等多种输...
阅读原文

URM

URM(Universal Recommendation Model)是阿里妈妈推出的世界知识大模型,基于知识注入和信息对齐,将LLM的通用知识与电商领域的专业知识相结合,解决传统LLM...
阅读原文

ACI.dev

ACI.dev 是开源的基础设施平台,专为 AI 智能体设计,提供强大的工具调用支持。集成了 600 多种预构建工具,涵盖 Gmail、Slack、Notion 等常见应用,支持通过...
阅读原文

F-Lite

F-Lite是Freepik团队联合FAL开源的10B参数的文生图模型。基于Freepik内部80M有版权的数据集训练,支持商业用途。F-Lite将T5-XXL作为文本编码器,基于抽取第17...
阅读原文

Embodied Reasoner

Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基...
阅读原文

风宇

风宇是中国气象局联合南昌大学和华为共同推出的全球首个全链式空间天气大模型。模型基于创新的链式训练结构,结合卫星观测数据与数值模式数据,实现太阳风、...
阅读原文

RepText

RepText 是Shakker Labs 和 Liblib AI推出的多语言视觉文本渲染框架,基于复制字形而非理解文本内容实现高质量的文本渲染。框架基于预训练的单语言文本到图像...
阅读原文