MoshiVis

MoshiVis – Kyutai 开源的多模态实时语音模型

MoshiVis 是 Kyutai 推出的开源多模态语音模型，融合视觉输入功能，基于 Moshi 实时对话语音模型进行开发。该模型能够实现自然且实时的图像语音交互，通过将语音和视觉信息结合，让用户能够用语音与模型进行图像内容的交流。

MoshiVis是什么

MoshiVis 是一款开源的多模态语音模型，由 Kyutai 团队推出。它在 Moshi 实时对话语音模型的基础上，新增了视觉输入功能。用户可以通过语音指令与模型对话，获取图像中的场景、物体和人物等信息。该模型基于 Moshi 的 7B 架构，并增加了约 206M 的适配器参数，同时集成了 400M 的 PaliGemma2 视觉编码器。MoshiVis 通过跨注意力机制和门控机制，将视觉信息融入语音流中，实现低延迟和自然的对话体验。它支持 PyTorch、Rust 和 MLX 三种后端，建议使用 Web UI 前端进行交互。

主要功能

视觉输入支持：MoshiVis 可以接收图像输入，用户能够通过语音与模型互动，了解图像内容的详细信息。
实时对话：模型支持即时语音交互，用户无需长时间等待即可进行自然对话。
多模态信息融合：MoshiVis 通过跨注意力机制，将视觉信息与语音流结合，实现语音和视觉输入的同步处理。
低延迟与自然对话风格：在处理图像与语音信息时，MoshiVis 保持低延迟，确保互动的实时性，同时继承了 Moshi 的自然对话风格，生成流畅的语音回应。
多后端兼容性：MoshiVis 支持 PyTorch、Rust 和 MLX 后端，用户可根据需求选择合适的部署方式，推荐使用 Web UI 进行交互。
无障碍功能：适用于无障碍 AI 接口，帮助视力障碍人士通过语音互动理解视觉场景。