AI项目和框架

X-AnyLabeling:多样化图像与视频标注样式的智能AI工具

X-AnyLabeling是集成多种深度学习算法的图像标注软件,专注于提升标注效率和精度。X-AnyLabeling支持图像和视频的多样化标注样式,适配多种AI训练场景,提供...

AI 3D世界生成模型,文本图像秒变3D渲染场景

Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,且支持动态效果的生成。Explorer基于高斯溅...
阅读原文

EMMA-X:具身多模态动作模型推动人机交互的革新与应用

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集...

WeaveFox:蚂蚁团队出品,根据设计图直接生成源代码

WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、...

微软开源的多功能、多格式文档转Markdown工具

MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文...
阅读原文

豆包推出视觉理解模型,具备识别和推理能力

豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解物体间的关系和...
阅读原文

豆包推出3D生成模型,自然语言交互实时生成3D场景图

豆包3D生成模型是豆包推出的3D生成模型,属于豆包大模型家族。模型基于3D-DiT 架构,能生成高质量 3D 模块。与火山引擎数字孪生平台 veOmniverse 结合使用,...
阅读原文

MV-Adapter:多视图一致图像生成模型的创新应用与技术优势

MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图...
阅读原文

谷歌推出的评估大模型能力的基准测试

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Ground...
阅读原文

开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图

Manga Image Translator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本,结合机器翻译将文字转换...
阅读原文

AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显...
阅读原文

清华和腾讯共同推出的图像序列着色模型

ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超分辨率技...
阅读原文

AI工作流可视化构建器,拖放节点设计复杂工作流

NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool支持在...
阅读原文

中科院联合多所高校机构推出增强多模态音乐生成的框架

VMB(Visuals Music Bridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框...
阅读原文

微软联合清华推出的多模态生成模型

LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据...
阅读原文
17071727374131