标签:图像识别
DINO-X:通用视觉大模型助力智能识别与分析的新时代
DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿...
T-Rex Label:智能AI标注工具简化复杂场景一键标注过程
T-Rex Label是AI自动标注工具,IDEA计算机视觉团队基于T-Rex2模型创建。T-Rex Label支持一键标注和零样本检测,适用于农业、工业、生物医药等多个行业。T-Rex...
LLaVA-o1:开源视觉语言模型助力智能理解与生成内容
LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2-Vision...
众影AI:智能动画创作:从剧本与音频到视觉作品的自动生成
众影AI是AI视频生成工具,专注于轻动画创作。基于自研的大模型自动分析剧本或音频,能一键生成角色表演,平均1分钟内完成视频制作。适于多种创作场景,如夫妻...
Vision Search Assistant:结合视觉语言模型与网络代理搜索技术的开源框架研究
Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
什么是深度学习(Deep Learning)
深度学习(Deep Learning)是机器学习的一个子集,本文介绍了什么是深度学习、深度学习的工作原理、深度学习与机器学习的区别、深度学习的开发框架以及深度学...
什么是神经网络(Neural Network)
神经网络(Neural Network)作为人工智能中的一种计算模型,是受人脑启发的一种机器学习类型。本文介绍了其定义、工作原理、类型、优势、局限和其应用场景。
Screenshot to Code
Sscreenshot to Code是一个开源的项目,利用人工智能技术(GPT-4V 和 DALL·E 3)将用户的屏幕截图转换为前端网页代码。项目的核心功能是自动化网页设计的编码...
什么是计算机视觉(Computer Vision)
计算机视觉(Computer Vision)是人工智能的一个关键分支,专注于使机器能够像人类一样解释和理解视觉信息。它涉及图像和视频的获取、处理、分析以及从这些数据...