标签:多模态交互

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

清华大学《DeepSeek与AI幻觉》(PDF文件)

《DeepSeek与AI幻觉》由清华大学新闻与传播学院新媒体研究中心和人工智能学院的张家铖博士后撰写,文档详细探讨了AI幻觉的定义、成因、评测方法以及应对策略...
阅读原文

腾讯混元T1

T1(Thinker)是腾讯混元推出的最新深度思考模型,已正式上线接入腾讯元宝。模型专注于逻辑推理和深度思考,支持联网搜索功能,能从互联网信源、微信公众号、...
阅读原文

OmniHuman

OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman...
阅读原文

微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!

原标题:微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」! 文章来源:新智元 内容字数:6294字微软大型行动模型LAM:AI从“聊天”到“行动”的跨...
阅读原文

GUI Agent综述 : 2-GUI Agent的三大技术基石

本文主要介绍铸就GUI Agent的三大技术基石。
阅读原文

LLaVA-o1:开源视觉语言模型助力智能理解与生成内容

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2-Vision...
阅读原文

PixVerse V2.5

PixVerse V2.5是爱诗科技最新推出的AI视频生成工具,通过模型优化提升了视频生成的速度和画质,支持4K分辨率。新版本增加了Performance模式、运动笔刷、运镜...
阅读原文

混元DiT

混元DiT(Hunyuan-DiT)是由腾讯混元团队开发的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的...
阅读原文

Gemini Live

Gemini Live是谷歌推出的智能语音助手,具有自然语言理解和多模态识别能力,支持图像、视频和语音交互。用户可通过语音指令控制,实现日常任务自动化。Gemini...
阅读原文

Qwen2-VL

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型,具备高级图像和视频理解能力。Qwen2-VL支持多种语言,能处理不同分辨率和长宽比的图片,实时分析动态视频...
阅读原文

HMoE

HMoE(混合异构专家模型)是腾讯混元团队提出的新型神经网络架构,旨在提升大型语言模型的性能和计算效率。通过引入不同尺寸的专家来处理不同复杂性的输入数...
阅读原文

VideoLLaMB

VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视...
阅读原文

ReHiFace-S

RReHiFace-S是由硅基智能团队推出的开源项目,实现高保真、实时人脸替换的AI算法,用户通过简单的操作在视频或直播中进行面部交换。
阅读原文
12