一个基于音频驱动的实时2D聊天头像生成模型,可在仅使用CPU的设备上实现30fps的实时推理。
小型高效的视觉语言模型,让资源有限的研究者和开发者也能轻松使用先进的视觉语言功能。
轻量级1.7B参数的语言模型,适用于多种任务。