AI项目和框架
Qwen2vl-Flux:多模态图像生成模型赋能创意无限,支持多样化生成模式
Qwen2VL-Flux是多模态图像生成模型,结合Qwen2VL的视觉语言理解和FLUX框架,基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式,包括变体生成、...
Find3D:加州理工学院创新3D部件分割模型提升精确度与效率
Find3D是加州理工学院推出的3D部件分割模型,能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据,...
Sketch2Lineart:将手绘草图瞬间转化为精美线条画的智能工具
Sketch2Lineart是基于人工智能的绘画工具,能将简单的手绘草图转换成清晰的线条画。通过自动生成草图描述并据此绘制线条画,支持调整细节适应不同风格。用户...
Fancy123:创新3D网格生成技术实现高效建模与精准细节捕捉
Fancy123是华中科技大学和华南理工大学推出的3D网格生成技术,基于即插即用的变形技术从单张图片生成高质量的3D网格。该方法包含两个增强模块和反投影操作,...
Mooncake:创新推理架构推动大模型智能应用的新时代
Mooncake是月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。采用以KVCache为中心的分布式架构,通过分离预填充和解码集群,充分利用GPU集群中未充...
QwQ-32B-Preview:超越O1模型的阿里开源AI推理产品实现高效精准的智能决策
QwQ-32B-Preview(QwQ-32B)是阿里巴巴开源的实验性研究AI模型,以强大的推理能力著称,尤其在数学和编程领域表现卓越。QwQ-32B-Preview包含325亿参数,能处...
InfiMM-WebMath-40B:超大规模多模态数据集驱动智能应用的全新可能性
InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中...
OneDiffusion:双向图像合成与理解的无缝扩散模型创新解决方案
OneDiffusion是AI2推出的多功能大规模扩散模型,能无缝支持双向图像合成和理解,涵盖文本到图像生成、条件图像生成、图像理解等多种任务。基于将所有条件和目...
LongAlign:港大推出的长文本与图像高效对齐技术革新
LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编...
ebook2audiobookXTTS:多语言开源电子书转有声书AI工具,轻松转换16种语言的文本为生动音频
ebook2audiobookXTTS是开源的AI工具,能将电子书转换为有声书。ebook2audiobookXTTS支持多种电子书格式,如epub、pdf、mobi等,用Coqui XTTS技术实现高质量的...
Optima:提升通信效率与任务管理的创新训练框架
Optima是清华大学推出的优化基于大型语言模型(LLM)的多智能体系统(MAS)的框架。基于一个迭代的生成、排名、选择和训练范式,显著提高通信效率和任务效果...
MuCodec:超低比特率音乐编解码器实现高保真音质与极致压缩效率
MuCodec是清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器,能实现音乐的高效压缩与高保真重建。MuCodec...
ACE:全能图像生成与编辑模型赋能创意无限可能
ACE(All-round Creator and Editor)是阿里巴巴集团Tongyi Lab推出的基于扩散变换器的全能图像生成和编辑模型。ACE引入长上下文条件单元(LCU)和统一条件格...
ViewExtrapolator:新型视图合成技术实现高质量视觉体验与灵活场景重建
ViewExtrapolator是南洋理工大学、UCAS研究团队共同推出的新视角外推方法,基于稳定视频扩散(Stable Video Diffusion, SVD)的生成先验合成远超出训练视图范...
OpenScholar:智能学术搜索工具助力高效研究与知识发现
OpenScholar是华盛顿大学和艾伦AI研究所共同推出的检索增强型语言模型(LM),能帮助科学家基于检索和综合科学文献中的相关论文回答问题。系统用大规模的科学...