标签:多模态学习
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
CogView-3-Flash
CogView-3-Flash 是智谱推出的首个免费AI图像生成模型,能根据文本描述生成高审美分数的图像,支持多种分辨率,满足专业领域需求。模型具备创意多样性,基于...
什么是视频扩散模型(Video Diffusion Models, VDM)
视频扩散模型(Video Diffusion Models, VDM)是一种结合了变分自编码器(VAE)和扩散模型优势的生成模型。VDM的核心思想是在潜在空间中进行扩散过程,而不是...
田渊栋:2024年年终总结
原标题:田渊栋:2024年年终总结 文章来源:新智元 内容字数:7452字田渊栋2024年AI研究总结及2025年展望 本文总结了田渊栋博士2024年在人工智能领域的研究...
什么是视觉语言模型(Vision-Language Models, VLMs)
视觉语言模型(Vision-Language Models, VLMs)是一种多模态人工智能系统,它结合了图像和文本的处理能力,以执行高级视觉语言任务,如视觉问答(Visual Ques...
行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024
原标题:行人、车辆、动物等ReID最新综述!武大等全面总结Transformer方法 | IJCV 2024 文章来源:新智元 内容字数:7928字Transformer在目标重识别 (Re-ID) ...
揭开未来之门:Llama2024年度亮点全解析
原标题:Llama2024年度要点总结 文章来源:人工智能学家 内容字数:7315字2024年Llama项目进展概述 随着2024年的结束,Llama项目在全球范围内取得了显著的进...
DeepSeek 怒抢视觉对话王座!DeepSeek-VL2 发布即开源,技术全公开
原标题:DeepSeek 怒抢视觉对话王座!DeepSeek-VL2 发布即开源,技术全公开 文章来源:夕小瑶科技说 内容字数:6315字DeepSeek-VL2:国内大模型领域的“拼多多...