AI工具
Midjourney 推出的多人协作 AI 虚拟世界构建工具
Patchwork 是 Midjourney 推出的创新性多人协作世界构建工具,支持用户在一个无限的画布上共同创作和构建虚拟世界。结合了AI图像生成技术和实时协作功能,支...
开源的实时多模态 AI 代理框架
TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延...
FLOAT:音频驱动的流匹配技术实现动态说话人头像生成
FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基...
AI绘画工具,支持多种场景多种绘画风格和技巧
AISEO Art是AI驱动的艺术生成平台,基于先进的AI技术,支持用户用文本提示创作出独特的视觉艺术作品。平台提供广告产品制作、图像变化、AI头像和滤镜选择等功...
MMAudio:高质量AI音频合成的多模态联合训练技术创新
MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
LiblibAI 推出的一站式 AI 图像生成平台
星流AI是LiblibAI平台推出的一站式AI生图平台,基于自研的Star-3通用图像生成模型,结合全球最大的LoRA增强模型库和先进的AI图像控制技术。为设计师、摄影师...
AI英语学习应用,与AI实时互动模拟真实口语对话场景
Speak APP是基于AI技术的英语学习应用,主打口语练习功能。Speak APP模拟真实对话场景,让用户与AI进行互动,实时获得发音、语法和词汇的反馈。Speak结合Open...
谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1.5 Pro快两倍...
书生·万象InternVL 2.5:创新驱动的多模态大语言模型提升智能交互体验
书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2.0的基础上进行显著增强,特别是在...
开源文本转语音工具,ChatTTS扩展版支持语音克隆
ChatTTSPlus是ChatTTS的扩展版本,基于集成TensorRT加速、语音克隆和移动模型部署等先进技术,提升语音合成的性能和灵活性。在Windows平台上,能实现超过3倍...
AI建筑可视化平台,快速将草图或概念图转化成可视化图像
Gendo是AI驱动的建筑可视化平台,基于生成式AI技术,如GANs和Diffusion模型,快速创建高度逼真的建筑概念图。平台能集成到设计工作流程中,支持设计师在项目...
AI浏览器插件,一键翻译国外视频用熟悉语言播放
YouTube Dubbing是在线观看国外视频的浏览器插件,基于智能同步配音和AI字幕技术,对字幕进行翻译并直接将翻译后的内容播放出来,免去盯着字幕的烦恼,消除观...
FineWeb 2:多语言预训练数据集助力全球NLP应用的创新与发展
FineWeb 2是Hugging Face推出的多语言预训练数据集,覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理,包括语言识别、去重、内容过滤和PII匿名化,适...
AI电商图文生成工具,支持多语言文案生成和作图功能
Kerqu.Ai是杭州刻趣科技有限公司推出的跨境电商AI图文生成工具,专为卖家设计,提供多语言AI文案生成和高效作图功能。Kerqu.Ai帮助用户无需专业设计或写作技...
塔猫AI对话PPT:智能PPT助手提升演示效率与内容互动体验
塔猫AI对话PPT是塔猫AI推出的新一代智能PPT分析工具,基于深度学习算法和自然语言处理技术,实现对PPT内容的语义理解和上下文分析,为用户带来全新的办公体验...