AI项目和框架

Fugatto:英伟达推出性多功能AI音频生成模型,支持高质量音频合成与实时语音转换

Fugatto是英伟达(NVIDIA)推出的音频合成和转换模型,全称为"Foundational Generative Audio Transformer Opus 1"。模型能根据文本提示生成音频或...
阅读原文

LongRAG:双视角鲁棒检索框架助力高效精准信息获取

LongRAG是清华大学、中国科学院和智谱的研究团队推出的,面向长文本问答(LCQA)的双视角鲁棒检索增强生成(RAG)框架。基于混合检索器、LLM增强信息提取器、...
阅读原文

Illustrious:高质量动漫风格图像生成的创新开源模型

Illustrious是开源的文本到图像动漫图像生成模型,是Onoma AI Research推出的。基于优化批量大小、dropout控制、训练图像分辨率和多级标题等关键方法,实现高...
阅读原文

aisuite:多模型接口整合的开源Python库助力高效AI应用开发

aisuite是开源的Python库,吴恩达(Andrew Ng)发布的,旨在提供一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内...
阅读原文

MobA:智能移动体引领未来科技的便捷生活

MobA(Mobile Agent)是上海交通大学团队推出的新型移动智能体,基于多模态大型语言模型(MLLMs)提升移动设备的自动化任务执行能力。MobA采用两级架构:高级...
阅读原文

Frames:突破创意界限的AI图像生成模型全面提升视觉艺术创作体验

Frames是Runway推出的最新AI图像生成模型,在风格控制和视觉保真度方面取得巨大进步。Frames能维持风格一致性,支持广泛的创意探索,为项目建立特定外观,并...
阅读原文

SlideChat:智能视觉语言助手助力多模态交互体验

SlideChat是上海AI实验室、厦门大学、华东师范大学等机构推出的,首个能理解千兆像素级别全切片图像的视觉语言助手。SlideChat能生成详尽的全切片图像描述,...
阅读原文

MCP:Anthropic开源模型上下文协议的核心优势与创新特点

MCP(Model Context Protocol,模型上下文协议)是一个开放协议,是Anthropic开源的,能实现大型语言模型(LLM)应用与外部数据源和工具之间的无缝集成。基于...
阅读原文

LazyGraphRAG:图形增强生成检索框架助力高效视觉搜索与内容生成

LazyGraphRAG是微软研究院推出的图形增强生成增强检索(RAG)框架,是GraphRAG的迭代版本。LazyGraphRAG在数据索引成本上大幅降低,是GraphRAG的0.1%,同时用...
阅读原文

LEOPARD:腾讯AI Lab推出的视觉语言模型赋能多模态理解与生成

LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型,专为理解和处理含有大量文本的多图像任务设计。LEOPARD基于两个主要技术创新:一是策划约一百万条专门...
阅读原文

书生InternThinker:突破性强推理模型助力智能决策与复杂问题解决

书生InternThinker是上海人工智能实验室推出的强推理模型,具备自主生成高智力密度数据和元动作思考能力。基于长思维能力和自我反思、纠正机制,在数学、代码...
阅读原文

Pangea:多语言多模态大语言模型的创新特性与应用前景

Pangea是卡内基梅隆大学团队推出的多语言多模态大型语言模型(LLM),能提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集,支持39种语言...
阅读原文

Windsurf:智能编码助手提升编程效率与协作能力

Windsurf 是Codeium公司推出的AI编程工具,具备实时协作功能,支持多系统,提供了强大的上下文感知能力。Windsurf融合了协作式 Copilots 和独立操作的 Agents...
阅读原文

LTX Video:Lightricks推出开源AI视频生成模型,轻松创建高质量视频内容

LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,...
阅读原文

EvolveDirector:阿里与南洋理工携手开发高效文本到图像生成模型技术

EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架,用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的...
阅读原文
16566676869115