标签:图像识别

Vision Parse

Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且...
阅读原文

Lookie

Lookie是AI穿搭应用,支持用户上传照片创建数字分身,试穿各种潮流服饰,并提供穿搭建议。Lookie拥有近30种风格的服饰库,覆盖实用穿搭、职场、生活、约会等...
阅读原文

Emoji AI:个性化AI表情包生成器,让你的情感随时随地生动表达

Emoji AI是AI驱动的表情包制作应用,主打卡通风格,提供搜索和文生图功能,让用户能快速创建个性化表情。Emoji AI特别推出节日主题表情,适应不同文化和节日...
阅读原文

什么是狭义人工智能(Artificial Narrow Intelligence, ANI):智能家居助理提升生活便利性与舒适度

狭义人工智能(Artificial Narrow Intelligence, ANI)也被称为“弱人工智能”,是指被设计和训练来执行特定任务或狭窄范围内任务的人工智能系统。与拥有类似人...
阅读原文

图趣AI:多风格AI绘画应用助你轻松创作独特视觉艺术

图趣AI是基于AI技术的绘画软件,能根据用户的文字描述,创作出各种风格和主题的艺术画作。用户只需输入创意灵感,AI能模拟出相应的视觉内容,包括风景、奇幻...
阅读原文

Qwen2vl-Flux:多模态图像生成模型赋能创意无限,支持多样化生成模式

Qwen2VL-Flux是多模态图像生成模型,结合Qwen2VL的视觉语言理解和FLUX框架,基于文本提示和图像参考生成高质量的图像。模型支持多种生成模式,包括变体生成、...
阅读原文

DINO-X:通用视觉大模型助力智能识别与分析的新时代

DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿...
阅读原文

T-Rex Label:智能AI标注工具简化复杂场景一键标注过程

T-Rex Label是AI自动标注工具,IDEA计算机视觉团队基于T-Rex2模型创建。T-Rex Label支持一键标注和零样本检测,适用于农业、工业、生物医药等多个行业。T-Rex...
阅读原文

LLaVA-o1:开源视觉语言模型助力智能理解与生成内容

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2-Vision...
阅读原文

一加 13:全面体验,颠覆你的手机认知!

三年之期已到,一加重新定义一加。
阅读原文

众影AI:智能动画创作:从剧本与音频到视觉作品的自动生成

众影AI是AI视频生成工具,专注于轻动画创作。基于自研的大模型自动分析剧本或音频,能一键生成角色表演,平均1分钟内完成视频制作。适于多种创作场景,如夫妻...
阅读原文

Vision Search Assistant:结合视觉语言模型与网络代理搜索技术的开源框架研究

Vision Search Assistant(VSA)是结合视觉语言模型(VLMs)和网络代理的框架,提升模型对未知视觉内容的理解能力。基于互联网检索,使VLMs处理和回答有关未...
阅读原文

什么是深度学习(Deep Learning)

深度学习(Deep Learning)是机器学习的一个子集,本文介绍了什么是深度学习、深度学习的工作原理、深度学习与机器学习的区别、深度学习的开发框架以及深度学...
阅读原文
1234