标签:多语言支持

Chinese-LiPS

Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲...
阅读原文

Seed1.5-VL

Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编...
阅读原文

Lovart

Lovart 是为设计师打造的世界上首个专业设计 Agent。Lovart 能像专业设计师一样思考和执行设计任务,提供高水平的设计方案。基于自然语言交互,用户能快速调...
阅读原文

OptoChat AI

OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备...
阅读原文

Ciro

Ciro 是自动化 LinkedIn 拓客的 AI 工具,帮助销售团队高效筛选潜在客户。通过 AI 技术扫描 LinkedIn 上的海量用户资料,根据用户设定的理想客户画像进行筛选...
阅读原文

OpusSearch

OpusSearch 是 OpusClip 推出的 AI 视频搜索工具,是专业创作者和企业的“定制 AI 大脑”,OpusSearch 能让用户快速搜索并再利用视频库中的任何内容,可按主题...
阅读原文

BILIVE

BILIVE 是一款基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的...
阅读原文

SuperEdit

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperE...
阅读原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
阅读原文

KuaiMod

KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动...
阅读原文

WebThinker

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行...
阅读原文

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开源的创新大模型搜索引擎框架,基于强化学习激励大模型的搜索能力,无需与真实搜索引擎交互。框架爱基于大模型预训练知识,...
阅读原文

Avatar IV

Avatar IV 是 HeyGen 推出的数字人模型,用在快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,能生成自然流畅的视频。模型基于音频驱动的表情引擎...
阅读原文

Smart PDFs

Smart PDFs 是免费开源的 AI 驱动 PDF 文档总结工具,能快速将 PDF 文档中的关键信息整理为清晰的章节式总结,支持学术论文、行业报告或技术文档,能在数秒内...
阅读原文

Ztalk.ai

Ztalk.ai 是AI桌面应用程序,专注于实时语音翻译。支持超过30种语言,延迟小于100毫秒,能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。
阅读原文
12345660