AI项目和框架

SlideChat:智能视觉语言助手助力多模态交互体验

SlideChat是上海AI实验室、厦门大学、华东师范大学等机构推出的,首个能理解千兆像素级别全切片图像的视觉语言助手。SlideChat能生成详尽的全切片图像描述,...
阅读原文

MCP:Anthropic开源模型上下文协议的核心优势与创新特点

MCP(Model Context Protocol,模型上下文协议)是一个开放协议,是Anthropic开源的,能实现大型语言模型(LLM)应用与外部数据源和工具之间的无缝集成。基于...
阅读原文

LazyGraphRAG:图形增强生成检索框架助力高效视觉搜索与内容生成

LazyGraphRAG是微软研究院推出的图形增强生成增强检索(RAG)框架,是GraphRAG的迭代版本。LazyGraphRAG在数据索引成本上大幅降低,是GraphRAG的0.1%,同时用...
阅读原文

LEOPARD:腾讯AI Lab推出的视觉语言模型赋能多模态理解与生成

LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型,专为理解和处理含有大量文本的多图像任务设计。LEOPARD基于两个主要技术创新:一是策划约一百万条专门...
阅读原文

书生InternThinker:突破性强推理模型助力智能决策与复杂问题解决

书生InternThinker是上海人工智能实验室推出的强推理模型,具备自主生成高智力密度数据和元动作思考能力。基于长思维能力和自我反思、纠正机制,在数学、代码...
阅读原文

Pangea:多语言多模态大语言模型的创新特性与应用前景

Pangea是卡内基梅隆大学团队推出的多语言多模态大型语言模型(LLM),能提升全球语言和文化多样性的覆盖。模型包含600万条指令的多样化数据集,支持39种语言...
阅读原文

Windsurf:智能编码助手提升编程效率与协作能力

Windsurf 是Codeium公司推出的AI编程工具,具备实时协作功能,支持多系统,提供了强大的上下文感知能力。Windsurf融合了协作式 Copilots 和独立操作的 Agents...
阅读原文

LTX Video:Lightricks推出开源AI视频生成模型,轻松创建高质量视频内容

LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,...
阅读原文

EvolveDirector:阿里与南洋理工携手开发高效文本到图像生成模型技术

EvolveDirector是阿里巴巴和南洋理工大学联合推出的创新框架,用公开资源和高级模型的API接口训练一个高性能的文本到图像生成模型。框架基于与现有高级模型的...
阅读原文

Kandinsky-3:灵活适应多种图像生成任务的开源文本到图像生成框架

Kandinsky-3是基于潜在扩散模型的文本到图像(T2I)生成框架,以高质量和逼真度在图像合成领域脱颖而出。Kandinsky-3能适应多种图像生成任务,包括文本引导的...
阅读原文

CAVIA:多视角视频生成框架打造沉浸式视觉体验

CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力...
阅读原文

Flex3D:创新的双阶段3D生成框架推动虚拟内容创作的新时代

Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架,能基于任意数量的高质量输入视图,解决从文本、单张图片或稀疏视图图像生成高质...
阅读原文

StoryTeller:全自动长视频描述生成系统提升内容创作效率与质量

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情...
阅读原文

DELIFT:数据驱动的高效语言模型指令微调技术提升智能交互体验

DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在优化大型语言模型(LLMs)在指令调优、任务特定微调和持续微调三个关键阶...
阅读原文

HART:自回归视觉生成模型推动图像生成的创新与精准

HART(Hybrid Autoregressive Transformer)是麻省理工学院研究团队推出的自回归视觉生成模型。能直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。H...
阅读原文
1353637383985