标签:多语言支持
Chinese-LiPS
Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲...
Seed1.5-VL
Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编...
OptoChat AI
OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备...
OpusSearch
OpusSearch 是 OpusClip 推出的 AI 视频搜索工具,是专业创作者和企业的“定制 AI 大脑”,OpusSearch 能让用户快速搜索并再利用视频库中的任何内容,可按主题...
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
WebThinker
WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行...
Smart PDFs
Smart PDFs 是免费开源的 AI 驱动 PDF 文档总结工具,能快速将 PDF 文档中的关键信息整理为清晰的章节式总结,支持学术论文、行业报告或技术文档,能在数秒内...