AI项目和框架
DisPose:提升动画质量的智能人物图像控制技术
DisPose是北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同推出的,提高人物图像动画质量的控制技术,基于从骨骼姿态和参考图像中提取有效...
InvSR:高清修复老旧照片的开源超分辨率模型提升细节与清晰度
InvSR是创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。用大型预训练扩散模型中丰富的图像先验,改善超分辨率的效果。InvSR的核心在于深度...
OCTAVE:Hume AI语音语言模型:自然交流与情感智能的完美结合
OCTAVE(Omni-Capable Text and Voice Engine)是Hume AI推出的新一代语音语言模型,结合EVI 2模型和OpenAI、Elevenlab、Google Deepmind等系统的能力。OCTAV...
3D-Speaker:多模态说话人识别技术的创新突破与应用潜力
3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模...
LeviTor:创新3D目标轨迹控制视频合成技术提升视觉效果与交互体验
LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviT...
Univer:智能办公助手全面提升Word和Excel文档处理效率
Univer是开源的全栈框架,支持创建和编辑电子表格、文档及幻灯片,为用户提供统一且强大的办公解决方案。Univer能在浏览器和Node.js环境中运行,易于集成到各...
AgentScope:阿里开源多智能体开发平台实现高效协作与智能决策
AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API...
VisionFM:少样本多疾病诊断的智能眼科AI模型
VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、...
Bamba-9B:Mamba2架构驱动的高效解码语言模型展现卓越性能与灵活应用
Bamba-9B是IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的,基于Mamba2架构的仅解码语言模型模型。模型在完全开放的数据集上训练,能提...
HelloMeme:面部表情与姿态迁移技术驱动的Stable Diffusion 1.5模型实现全新创作体验
HelloMeme是基于最新的Diffusion生成技术的框架,实现表情与姿态的迁移,HelloMeme集成空间编织注意力(Spatial Knitting Attentions)机制,基于Stable Diff...