标签:多模态交互
腾讯混元Turbo S
腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂度,减少了KV-Cache...
微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!
原标题:微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」! 文章来源:新智元 内容字数:6294字微软大型行动模型LAM:AI从“聊天”到“行动”的跨...
LLaVA-o1:开源视觉语言模型助力智能理解与生成内容
LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2-Vision...
PixVerse V2.5
PixVerse V2.5是爱诗科技最新推出的AI视频生成工具,通过模型优化提升了视频生成的速度和画质,支持4K分辨率。新版本增加了Performance模式、运动笔刷、运镜...
Gemini Live
Gemini Live是谷歌推出的智能语音助手,具有自然语言理解和多模态识别能力,支持图像、视频和语音交互。用户可通过语音指令控制,实现日常任务自动化。Gemini...