标签:多模态交互

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

LLaVA-o1:开源视觉语言模型助力智能理解与生成内容

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2-Vision...
阅读原文

PixVerse V2.5

PixVerse V2.5是爱诗科技最新推出的AI视频生成工具,通过模型优化提升了视频生成的速度和画质,支持4K分辨率。新版本增加了Performance模式、运动笔刷、运镜...
阅读原文

混元DiT

混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的...
阅读原文

Gemini Live

Gemini Live是谷歌推出的智能语音助手,具有自然语言理解和多模态识别能力,支持图像、视频和语音交互。用户可通过语音指令控制,实现日常任务自动化。Gemini...
阅读原文

Qwen2-VL

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频...
阅读原文

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数...
阅读原文

VideoLLaMB

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
阅读原文

ReHiFace-S

RReHiFace-S是由硅基智能团队推出的开源项目,实现高保真、实时人脸替换的AI算法,用户通过简单的操作在视频或直播中进行面部交换。
阅读原文

OLMoE

OLMoE(Open Mixture-of-Experts Language Models)是一个完全开源的大型语言模型,基于混合专家(MoE)架构。OLMoE基于5万亿个token进行预训练,拥有70亿总...
阅读原文