标签:多模态交互
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
PixVerse V2.5 – 爱诗科技推出的AI视频生成工具,视频生成提速200%
PixVerse V2.5是爱诗科技最新推出的AI视频生成工具,通过模型优化提升了视频生成的速度和画质,支持4K分辨率。新版本增加了Performance模式、运动笔刷、运镜...
混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT
混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的...
Gemini Live – 谷歌推出的多模态AI语音助手
Gemini Live是谷歌推出的智能语音助手,具有自然语言理解和多模态识别能力,支持图像、视频和语音交互。用户可通过语音指令控制,实现日常任务自动化。Gemini...
Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型
Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频...
HMoE – 腾讯混元团队提出的新型神经网络架构
HMoE(混合异构专家模型)是腾讯混元团队提出的新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数...
VideoLLaMB – 开源的多模态长视频理解框架
VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
ReHiFace-S – 硅基智能推出的实时人脸替换AI技术
RReHiFace-S是由硅基智能团队推出的开源项目,实现高保真、实时人脸替换的AI算法,用户通过简单的操作在视频或直播中进行面部交换。
OLMoE – 完全开源的大语言模型,基于混合专家(MoE)架构
OLMoE(Open Mixture-of-Experts Language Models)是一个完全开源的大型语言模型,基于混合专家(MoE)架构。OLMoE基于5万亿个token进行预训练,拥有70亿总...