标签:多语言支持

s1

s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推...
阅读原文

LipRead Pro

LipRead Pro 是基于先进 AI 技术的视频唇读工具,能将视频中的唇部动作转换为文字。采用最新的深度学习模型,支持多种语言和口音,应用于内容创作、无障碍辅...
阅读原文

LOOK

LOOK是实时AI时尚设计工具,专为时尚设计师开发。LOOK基于先进的AIGC技术,将设计概念即时转化为视觉呈现,简化传统设计流程。设计师在Procreate中绘制草图时...
阅读原文

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开源的 Android 手机应用,支持各类大语言模型(LLM)在手机上离线运行。具备多模态功能,能实现文本生成文本、图像生...
阅读原文

qeen.ai

qeen.ai 是谷歌和 DeepMind 前员工为电子商务企业提供自主 AI Agent平台,帮助商家优化内容创作、营销和对话销售。 AI Agent 基于专有的 RL-UI 技术,实时从...
阅读原文

绘声美音

绘声美音是免费的在线AI翻唱软件,用户无需下载,通过微信公众号使用。支持声音克隆与翻唱,用户上传3分钟以上的语音即可训练声音模型,之后可选择平台提供的...
阅读原文

Hika

Hika是国内五人团队开发的免费AI知识搜索工具,通过个性化交互和多维度知识探索,帮助用户获得更全面和深入的搜索结果。与传统AI搜索工具不同,不追求“一步到...
阅读原文

MILS

MILS(Multimodal Iterative LLM Solver)是Meta AI提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通过多步推理,提示LLM生成候选输出,对每...
阅读原文

Granola

Granola是专为频繁参加会议的人设计的AI会议助手工具。能实时转录会议内容,自动识别发言者并标注时间戳,支持用户在会议中实时添加笔记和标记重点。会议结束...
阅读原文

X-Prompt

X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分...
阅读原文

BitsAI-CR

BitsAI-CR是字节跳动团队推出的基于大型语言模型(LLM)的自动化代码审查工具,通过两阶段处理流程实现高效代码审查:RuleChecker 负责基于 219 条规则检测潜...
阅读原文

Pipecat

Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功能,简化AI服务的复杂协调、网络传输、音...
阅读原文

GLM-Realtime

GLM-Realtime是智谱推出的全新端到端多模态模型,具备低延迟的视频理解与语音交互能力,特别融入清唱功能,让大模型在对话中能展现歌唱才能。模型支持长达2分...
阅读原文

Aibiye

Aibiye是AI论文写作辅助平台,基于Multimodal+Global Thought Chain语言模型,为用户提供从开题报告到完整论文的生成服务。用户只需输入关键词、选择专业和字...
阅读原文

LlamaV-o1

LlamaV-o1是阿联酋穆罕默德·本·扎耶德人工智能大学等机构提出的新多模态视觉推理模型,旨在提升大型语言模型的逐步视觉推理能力。引入视觉推理链基准测试VRC-...
阅读原文
1192021222361