AI项目和框架

DriveDreamer4D

DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结...
阅读原文

Animate-X

Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运...
阅读原文

MarDini

MarDini是新型的视频扩散模型,融合掩码自回归(MAR)和扩散模型(DM)的优势,用在大规模视频生成。模型能处理任意数量和位置的掩码帧,支持视频插值、图像...
阅读原文

SDXL-EcomID

SDXL-EcomID是阿里妈妈推出的开源项目,从单个参考图像生成定制的个性图像。融合PuLID和InstantID的优点,优化背景一致性、面部关键点控制和面部真实性,提高...
阅读原文

DreamClear

DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。
阅读原文

GitHub Spark

GitHub Spark是GitHub推出的AI编程工具,支持GPT-4o、Claude Sonnet 3.5等四款编程模型。用户无需任何代码和部署环境,基于自然语言描述需求,能在桌面或移动...
阅读原文

SimpleQA

SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分”...
阅读原文

VtripGPT

VtripGPT是视旅科技推出的专注于旅游领域的AI大模型,基于深度合成服务为旅游对话生成提供智能支持。模型基于Transformer架构,结合旅游行业数据和常规知识进...
阅读原文

D-Edit

D-Edit是基于图像和文本的多功能图像编辑框架,基于预训练的扩散模型和独特的提示(prompts)实现对图像中特定项目的精确控制和编辑。框架能处理包括基于图像...
阅读原文

PromptFix

PromptFix是微软开发的开源AI图像修复工具,基于扩散模型技术,能根据用户指令处理损坏的图片,移除不需要的元素。PromptFix支持多种图像处理任务,包括上色...
阅读原文

Red_Panda

Red_Panda 是 Recraft V3 在发布初期使用的化名,是Recraft AI推出的先进AI图像生成模型,以卓越的性能在图像生成领域树立新标准。在Hugging Face的Text-to-I...
阅读原文

Show-o

Show-o是集成了多模态理解和生成的统一Transformer模型。通过结合自回归和离散扩散建模,能灵活处理包括视觉问答、文本到图像生成、文本引导的修复和扩展,混...
阅读原文

MimicTalk

MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。Mimi...
阅读原文

Wonder Animation

Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D...
阅读原文

TimeSuite

TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集Tim...
阅读原文
1686970717275