标签:多语言支持
CogAgent-9B
CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文...
Diff-Instruct
Diff-Instruct是先进的知识转移方法,用于从预训练的扩散模型中提取知识,指导其他生成模型的训练。它基于一种新的散度度量——积分Kullback-Leibler (IKL) 散...
DeepSeek V3
DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表...
Browser Use
Browser Use是专门为大语言模型服务的智能浏览器工具,创新的Python工具库,让AI代理能像人类一样自然地浏览和操作网页。Browser Use支持多标签页管理、视觉...
什么是光学字符识别(Optical Character Recognition, OCR)
光学字符识别(Optical Character Recognition,OCR)是一种将文本图像转换为机器可读格式的技术。通过自动数据提取,能快速识别扫描文档、相机图像和图像PDF...
Midscene.js
Midscene.js是基于AI技术的自动化SDK,通过用大型语言模型(LLM)简化UI自动化测试中的命令。用户用自然语言描述交互步骤或预期数据格式,Midscene.js将执行...
OmniAudio-2.6B
OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2...
Leya:多国法律支持的智能法律服务平台助力律师高效审查、搜索与起草文件
Leya 是专为法律专业人士设计的AI法律服务平台,基于集成AI工具优化法律工作流程。Leya能自动化重复性任务,聚合信息,并提供对法律资源及用户数据的一站式访...