InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
字节跳动AI编程助手,中文界面,代码智能生成
字节跳动旗下AI编程工具悠码(Yoma)
领先AI智能聚合平台,助您高效办公,事半功倍。
字节跳动推出免费AI编程IDE,协作提升效率,加速项目交付。
Gemini 2.5 是谷歌最智能的 AI 模型,具备推理能力。
Trae是字节跳动推出的国内首款AI原生IDE,集成Claude3.5与GPT-4o两款顶尖AI模型,专为中文开发场景设计,将AI深度集成于IDE环境,带来更流畅、准确的开发体验。
一站式AI聚合平台
Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型,专注于推理性能与模型能力的极致平衡。
一款支持多模态功能的全功能大语言模型安卓应用。
CUA 是一种能够通过图形界面与数字世界交互的通用接口。
OpenAI Agents SDK 是一个用于构建自主智能体的开发工具包,简化多智能体工作流的编排。
OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
Kimi k1.5 是一个通过强化学习扩展的多模态语言模型,专注于提升推理和逻辑能力。
Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型,包含 Flash、Flash-Lite 和 Pro 版本。
DeepSeek 是一款先进的 AI 语言模型,擅长逻辑推理、数学和编程任务,提供免费使用。
VideoLLaMA3是前沿的多模态基础模型,专注于图像和视频理解。
Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。
Qwen2.5-VL 是一款强大的视觉语言模型,能够理解图像和视频内容并生成相应文本。
UniTok是一个用于视觉生成和理解的统一视觉分词器。
EgoLife是一个长期、多模态、多视角的日常生活AI助手项目,旨在推进长期上下文理解研究。
一个用于智能设备等的多模态原生代理框架。
SmolVLM-500M 是一个轻量级多模态模型,能够处理图像和文本输入并生成文本输出。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
用于多模态上下文中的检索增强生成的基准测试代码库。
Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型,能够展示其思考过程以提升性能和可解释性。
SmolVLM-256M 是世界上最小的多模态模型,可高效处理图像和文本输入并生成文本输出。
Janus-Pro-7B 是一个新型的自回归框架,统一多模态理解和生成。
Magma-8B 是微软推出的一款多模态 AI 模型,能够处理图像和文本输入并生成文本输出。
Gemini 2.0 Flash-Lite 是高效的语言模型,专为长文本处理和多种应用场景优化。
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。