AI工具

谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能...
阅读原文

用于测试不同LLM编程能力的在线平台

CodeArena是在线平台,基于让多个大型语言模型(LLM)同时构建相同的应用程序,实时显示排名结果,比较LLM生成代码的能力。CodeArena平台主要评估和比较不同L...
阅读原文

AI虚拟试穿平台,30-60秒内完成换衣

Change Clothes AI是在线AI虚拟试穿平台,基于深度学习算法分析用户上传的照片和服装图像,快速生成用户穿着新服装的逼真图像。平台支持用户在购买前预览服装...
阅读原文

AI绘本生成工具,输入核心思想自动生成连续性的故事绘本

童语故事(ImageStory)是AI驱动的儿童绘本生成工具,支持用户输入核心思想系统自动生成精美的插画儿童故事绘本。工具简化绘本创作流程,适用于家庭和学校教...
阅读原文

SynCamMaster:多视角视频生成模型引领视频创作新纪元

SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开...
阅读原文

苹果推出的视频生成大模型

STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V)和文本图像到...
阅读原文

AI 漫画生成框架,能生成可控的黑白漫画面板

DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多...
阅读原文

Maya:全球领先的智能家居助手提升生活便利性与安全性

Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉...
阅读原文

Particle News:个性化视角下的AI新闻阅读平台,全面满足您的信息需求

Particle News是AI驱动的新闻阅读平台,基于汇总用户关心的话题,提供简洁的新闻摘要和多角度报道,帮助用户快速理解重要信息。用户能关注特定人物、地点或事...
阅读原文

巨人网络推出的有声游戏生成大模型

千影 QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨人网络AI La...
阅读原文

谷歌推出的多模态 AI 虚拟助手

Project Astra 是谷歌 DeepMind 推出的多模态虚拟助手。能在用户的手机上和基于原型眼镜提供辅助,让用户用所未有的方式探索世界。Astra 支持自然交互,包括...
阅读原文

轻量级LLM应用开发框架,通过一行代码切换不同LLM

Promptic是轻量级的LLM应用开发框架,提供高效且符合Python风格的开发方式。基于LiteLLM,Promptic支持开发者能轻松切换不同的LLM服务提供商,只需更改一行代...
阅读原文

星流AI:全新一站式AI图像生成平台助力创意无限探索

星流AI是LiblibAI推出的一站式AI图像生成平台,基于自研的Star-3通用图像生成模型,结合全球最大的LoRA增强模型库和先进的AI图像控制技术。为设计师、摄影师...
阅读原文

Ultravox:智能多模态助手实现文本与语音的无缝理解

Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高...
阅读原文

谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物

Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术,用 Chrome 扩展程序实现浏览器自动化,理解和执行网页任务。Proj...
阅读原文
11718192021140