标签:多模态交互
WPS接入DeepSeek,秒变办公神器!
WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
清华大学《DeepSeek与AI幻觉》(PDF文件)
《DeepSeek与AI幻觉》由清华大学新闻与传播学院新媒体研究中心和人工智能学院的张家铖博士后撰写,文档详细探讨了AI幻觉的定义、成因、评测方法以及应对策略...
微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!
原标题:微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」! 文章来源:新智元 内容字数:6294字微软大型行动模型LAM:AI从“聊天”到“行动”的跨...
LLaVA-o1:开源视觉语言模型助力智能理解与生成内容
LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队推出的开源视觉语言模型,基于Llama-3.2-Vision...
PixVerse V2.5
PixVerse V2.5是爱诗科技最新推出的AI视频生成工具,通过模型优化提升了视频生成的速度和画质,支持4K分辨率。新版本增加了Performance模式、运动笔刷、运镜...
Gemini Live
Gemini Live是谷歌推出的智能语音助手,具有自然语言理解和多模态识别能力,支持图像、视频和语音交互。用户可通过语音指令控制,实现日常任务自动化。Gemini...
12