标签:多语言支持

Ola

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文...
阅读原文

BEN2

BEN2(Background Erase Network 2)是Prama LLC开发的深度学习模型,专门用于从图像和视频中快速移除背景并提取前景。基于创新的置信度引导抠图(CGM)管道...
阅读原文

播记

播记是专为播客创作者设计的智能节目笔记(Shownotes)生成工具。通过AI技术,能快速提取播客音频中的关键信息,自动生成包含节目主题、嘉宾介绍、重要观点、...
阅读原文

SANA 1.5

SANA 1.5 是英伟达联合MIT、清华、北大等机构推出的新型高效的线性扩散变换器(Linear Diffusion Transformer),用于文本到图像生成任务。在 SANA 1.0 的基...
阅读原文

倍客AI

倍客AI是专注于 AI 内容创作的平台,通过人工智能技术为商业摄影、广告设计、电商展示等领域提供高效、高质量的创意解决方案。平台的核心功能包括 AI 商图、A...
阅读原文

JoyGen

JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度...
阅读原文

Le Chat APP

Le Chat APP是法国人工智能初创公司Mistral AI推出的AI对话助手应用。支持自然语言对话、实时网页搜索、文档分析和图像生成等功能。Le Chat提供基础版免费使...
阅读原文

s1

s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推...
阅读原文

LipRead Pro

LipRead Pro 是基于先进 AI 技术的视频唇读工具,能将视频中的唇部动作转换为文字。采用最新的深度学习模型,支持多种语言和口音,应用于内容创作、无障碍辅...
阅读原文

LOOK

LOOK是实时AI时尚设计工具,专为时尚设计师开发。LOOK基于先进的AIGC技术,将设计概念即时转化为视觉呈现,简化传统设计流程。设计师在Procreate中绘制草图时...
阅读原文

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用,支持各类大语言模型(LLM)在手机上离线运行。具备多模态功能,能实现文本生成文本、图像生...
阅读原文

qeen.ai

qeen.ai 是谷歌和 DeepMind 前员工为电子商务企业提供自主 AI Agent平台,帮助商家优化内容创作、营销和对话销售。 AI Agent 基于专有的 RL-UI 技术,实时从...
阅读原文

绘声美音

绘声美音是免费的在线AI翻唱软件,用户无需下载,通过微信公众号使用。支持声音克隆与翻唱,用户上传3分钟以上的语音即可训练声音模型,之后可选择平台提供的...
阅读原文

Hika

Hika是国内五人团队开发的免费AI知识搜索工具,通过个性化交互和多维度知识探索,帮助用户获得更全面和深入的搜索结果。与传统AI搜索工具不同,不追求“一步到...
阅读原文

MILS

MILS(Multimodal Iterative LLM Solver)是Meta AI提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通过多步推理,提示LLM生成候选输出,对每...
阅读原文
1181920212260