AI项目和框架
OmniVision:高效轻量化的边缘多模态模型实现智能化应用
OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,基于LLaVA架构改进,显著减少图像token数量,降低延迟和...
Free Video-LLM:高效视频语言模型实现无需训练的智能内容生成
Free Video-LLM是创新的无需训练的高效视频语言模型,基于提示引导的视觉感知技术,实现对视频内容的高效理解。模型用预训练的图像LLMs,无需额外训练即可适...
LogoCreator:快速生成专业定制商标的开源AI Logo设计工具
LogoCreator是开源的logo生成器,基于Together AI提供的Flux Pro 1.1技术快速创建专业风格的logo。项目用Next.js和TypeScript构建应用框架,Shadcn和Tailwind...
法信法律基座大模型:法律行业新纪元的千亿参数智能大模型发布
法信法律基座大模型是基于清华大学与面壁智能科研成果转化的千亿参数通用大模型,由最高人民法院发布,定位为国家级法律AI基础设施。提供生成式AI底层能力,...
Audio Decomposition:轻松转换音乐为五线谱的开源工具
Audio Decomposition是音频处理技术,基于傅里叶变换和信封匹配将音乐中的各个音符和乐器分离,实现音乐到乐谱的转换。Audio Decomposition开源项目是Matthew...
Florence-2:多功能视觉语言模型提升跨模态理解与应用能力
Florence-2 是微软 Azure AI 团队推出的多功能视觉模型,能执行图像描述、目标检测、视觉定位和图像分割等多种计算机视觉任务。Florence-2 基于 Transformer ...
k0-math:月之暗面Kimi的创新数学推理模型引领高效决策新潮流
k0-math是月之暗面推出的最新数学推理模型,主打深入思考能力。在MATH、中考、高考、考研等数学基准测试中,k0-math的成绩超过OpenAI的o1系列模型。模型基于...
MagicQuill:智能图像编辑助手助你轻松创作与分享
MagicQuill是香港科技大学、蚂蚁集团、浙江大学和香港大学共同推出的开源AI互动式图像编辑工具。基于用户友好的界面和AI支持的智能建议,实现精确的局部图像...
ai-chatbot:构建高性能聊天应用的开源AI聊天机器人解决方案
ai-chatbot是Vercel推出的开源项目,基于Next.js框架和Vercel AI SDK构建。ai-chatbot提供一个功能完备、易于定制的AI聊天机器人模板,帮助开发者快速构建高...
LLaMA-Mesh:清华与英伟达携手打造智能自然语言驱动的3D模型生成系统
LLaMA-Mesh是清华大学和NVIDIA共同推出的项目,基于将3D网格生成与大型语言模型(LLMs)结合,实现用文本提示直接生成3D模型的功能。项目用OBJ文件格式将3D网...
iAgents:多智能体协作创新框架推动人工智能高效协同与任务优化
iAgents是清华大学推出的多AI智能体协作框架,基于为每个用户配备个人AI智能体促进协作和完成日常任务。智能体能理解用户的文件、命令,从协作中学习,实现自...
DanceFusion:音频驱动的舞蹈动作重建与生成开源框架助力创意舞蹈表达
DanceFusion是清华大学推出的开源框架,专注于音频驱动的舞蹈动作重建与生成。DanceFusion结合分层时空Transformer-VAE和扩散模型,能处理社交媒体上的不完整...
Symphony Creative Studio:TikTok推出智能AI广告创意视频生成工具,轻松打造个性化广告内容
Symphony Creative Studio是TikTok推出的AI视频创作工具,帮助广告主和内容创作者简化视频制作流程。Symphony Creative Studio集成视频生成、转换和扩展功能...
Skywork o1:天工大模型4.0 O1版:智能生成与多模态交互的革新体验
Skywork o1是昆仑万维推出的天工大模型4.0 o1版,是国内首款具备中文逻辑推理能力的o1模型。Skywork o1在模型输出中内生了思考、计划、反思等能力,显著提升...
Voyage Multimodal-3:多模态嵌入模型引领AI创新实现更智能的跨领域理解与应用
Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂文档解...