AI项目和框架

Mochi 1

Mochi 1是Genmo公司推出的开源视频生成模型,在动作质量和遵循用户提示方面表现出色。Mochi 1基于Apache 2.0许可证发布,支持个人和商业用途的免费使用。模型...
阅读原文

Claude 3.5 Haiku

Claude 3.5 Haiku 是 Anthropic 公司推出的一款新型人工智能模型,保持与前代 Claude 3 Haiku 相近的速度和成本的同时,实现了在各项能力上的提升,在多项基...
阅读原文

PUMA

PUMA是一个先进的多模态大型语言模型(MLLM),旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本到图像的生成、详细的图像编辑及...
阅读原文

Janus

Janus是一个由DeepSeek AI推出的自回归框架,旨在统一多模态理解和生成任务。将视觉编码分离成不同的路径解决以往方法的局限性,且用单一的变换器架构进行处...
阅读原文

PaddleOCR 2.9

PaddleOCR 2.9是由百度飞桨(PaddlePaddle)推出的一款开源光学字符识别(OCR)工具库。提供丰富的算法和模型,支持多种语言识别,提供数据标注和合成工具。P...
阅读原文

Mellum

Mellum 是 JetBrains 推出的一款专为开发者设计的大型语言模型(LLM),旨在提升 AI 驱动的开发工具。通过深度集成 JetBrains IDE,提供低延迟、高准确度的代...
阅读原文

easegen

easegen是一个开源的AI+数字人课程制作项目,集成课程制作、视频管理、智能课件生成到智能出题的全套方案。项目支持PPT课件的批量自动生成、数字人克隆、声音...
阅读原文

sCM

sCM是OpenAI推出的连续时间一致性模型,基于扩散模型原理进行改进。sCM简化理论框架和优化采样过程,实现图像生成速度的显著提升。sCM模型仅需两步采样能生成...
阅读原文

Moonshine

Moonshine是专为资源受限设备优化的语音识别模型,提供快速且准确的实时语音转文本服务。适于需要即时响应的应用场景,例如现场转录和语音命令识别。Moonshin...
阅读原文

Time-MoE

Time-MoE是创新的时间序列基础模型,基于混合专家(Mixture of Experts, MoE)架构,将时间序列预训练模型的参数规模扩展至十亿级别。模型用稀疏激活机制,在...
阅读原文

Whispo

Whispo是AI驱动的语音转录工具,支持用户按住Ctrl键录制语音,在释放键时自动将转录的文本插入到正在用的任何支持文本输入的应用程序中。工具的数据处理完全...
阅读原文

AutoGLM-Web

AutoGLM-Web是模拟用户操作的智能浏览器助手,基于大型语言模型构建,能执行网页访问、信息检索、内容总结等任务。基于简单的文字或语音指令,AutoGLM-Web能...
阅读原文

OmniGen

OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及...
阅读原文

CogAgent

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符...
阅读原文

OMNE Multiagent

OMNE Multiagent是天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)推出的大模型多智能体框架。基于长期记忆(Long Term Memory, LTM)构建,...
阅读原文
1525354555662