标签:图像识别

Vision Search Assistant:结合视觉语言模型与网络代理搜索技术的开源框架研究

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
阅读原文

什么是深度学习(Deep Learning)

深度学习(Deep Learning)是机器学习的一个子集,本文介绍了什么是深度学习、深度学习的工作原理、深度学习与机器学习的区别、深度学习的开发框架以及深度学...
阅读原文

什么是神经网络(Neural Network)

神经网络(Neural Network)作为人工智能中的一种计算模型,是受人脑启发的一种机器学习类型。本文介绍了其定义、工作原理、类型、优势、局限和其应用场景。
阅读原文

AI初创公司融资数据库

AI工具集推出的AI初创公司融资数据库,通过该页面你可以获取人工智能行业最新的融资数据和资讯,为投资者、创业者、研究人员和AI爱好者提供关于AI创业公司融...
阅读原文

Screenshot to Code

Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码...
阅读原文

BrushNet

BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双分支架构来有效...
阅读原文

Butterflies AI

Butterflies AI是一个有趣的AI社交平台,支持用户定制具有个性和情感的AI角色,称为"蝴蝶",AI虚拟角色能在平台上自动发布动态和互动。
阅读原文

Omages

Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码进64x64像素的2D图像中,从而简化3D建模流程。
阅读原文

Qwen2-VL

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频...
阅读原文

什么是计算机视觉(Computer Vision)

计算机视觉(Computer Vision)是人工智能的一个关键分支,专注于使机器能够像人类一样解释和理解视觉信息。它涉及图像和视频的获取、处理、分析以及从这些数据...
阅读原文

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥...
阅读原文

Myimg AI

Myimg AI是Deang.ltd公司开发的AI卡通化工具,能将用户的照片快速转化为海贼王风格的卡通画。基于先进的人工智能技术,为用户提供了一种简单而有趣的方式,来...
阅读原文

Comic Translate

Comic Translate 是一个开源的漫画翻译工具,由开发者 ogkalu2 推出。帮助用户自动翻译全球各地的漫画,支持英语、韩语、日语、法语、简体中文、繁体中文、俄...
阅读原文

GroundingBooth

GroundingBooth 是一个先进的文本到图像定制框架,由华盛顿大学圣路易斯分校、Adobe和普渡大学的研究团队共同推出。基于文本-图像对齐模块和遮罩交叉注意力层...
阅读原文

商汤小浣熊

商汤小浣熊是商汤科技推出的“小浣熊”系列AI智能助手,已为数十万用户提供了数十亿次智能辅助服务,其中包括代码小浣熊和办公小浣熊,分别助力开发者轻松驾驭...
阅读原文