AI项目和框架

Mahilo

Mahilo 是灵活的多智能体框架,支持创建与人类互动的多智能体系统。Mahilo支持实时语音和文本通信,智能体之间能自主共享上下文和信息,保持人类对交互的监督...
阅读原文

WorldCraft

WorldCraft是香港科技大学推出的基于大型语言模型(LLM)代理的3D世界创建和定制系统,用在创建和定制逼真的3D虚拟世界。基于自然语言交互,让用户能轻松生成...
阅读原文

Mobius

Mobius 是先进的无缝循环视频生成技术,能通过人工智能算法从文本描述生成无限循环的视频内容。核心在于强大的AI模型,能自动识别视频中的关键元素并生成平滑...
阅读原文

LDGen

LDGen是创新的文本到图像合成技术,通过结合大型语言模型(LLMs)与扩散模型,提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术,...
阅读原文

HippoRAG 2

HippoRAG 2是俄亥俄州立大学推出的检索增强生成(RAG)框架,解决现有RAG系统在模拟人类长期记忆动态性和关联性方面的局限性。HippoRAG 2基于个性化PageRank...
阅读原文

AIMv2

AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的图像块,将文...
阅读原文

VidSketch

VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于“层级...
阅读原文

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...
阅读原文

SongGen

SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格...
阅读原文

CorrDiff

CorrDiff 是 NVIDIA 推出的生成式 AI 模型,用于将低分辨率的全球天气数据下采样为高分辨率数据,提高天气预测的准确性和效率。采用两步法处理数据:首先通过...
阅读原文

Smallpond

Smallpond是DeepSeek推出的基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计。Smallpond支持处理 PB 级数据集,借助 DuckDB 的...
阅读原文

GPT-4.5

GPT-4.5 是 OpenAI 推出的最新大型语言模型,是目前规模最大、性能最强的聊天模型。基于扩展无监督学习,提升模式识别、知识广度和创意生成能力,减少了幻觉...
阅读原文

3FS

3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SS...
阅读原文

Profiling Data

PProfiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过程中的详细信息,用在分析和优化软件性能。
阅读原文

Phi-4-Multimodal

Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异,在自动...
阅读原文
14243444546131