标签:多模态交互

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

TRAE Agent

TRAE Agent 是字节跳动开源的基于大语言模型(LLM)的智能助手,专为软件工程任务设计。能像资深工程师一样自主完成复杂任务,例如复现问题、制定修复方案、...
阅读原文

DeepAgent

DeepAgent是Abacus.AI推出的全能通用Agent,专为企业和专业人士设计,支持基于自然语言输入快速生成风险投资(VC)融资演示文稿,DeepAgent能进行跨学科研究...
阅读原文

星流Agent

星流Agent是专为中文用户设计的一站式创意设计Agent。星流Agent延续Lovart的全栈式智能设计能力,全面适配中文语义、东方美学和本地场景。用户只需输入一句话...
阅读原文

OAgents

OAgents 是OPPO PersonalAI Lab推出的开源基础Agent框架。框架基于标准化的评估协议和模块化设计,推动Agent框架的研究。OAgents基于系统实证研究,分析关键A...
阅读原文

鸿蒙智能体框架(HMAF)是什么?一文看懂

鸿蒙智能体框架(Harmony Agent Framework,简称 HMAF)是华为公司为其自主研发的鸿蒙操作系统(HarmonyOS)打造的一款核心人工智能框架 。在于构建一个具备...
阅读原文

AI智能体(AI Agent)是什么?一文看懂

AI智能体(AI Agent),也被称为人工智能体,是人工智能领域中的一个核心概念,指的是能感知其环境、进行自主决策并采取行动以实现特定目标的智能实体或计算...
阅读原文

Kimi-Dev

Kimi-Dev是Moonshot AI推出的开源代码模型,专为软件工程任务设计。模型拥有 72B 参数量,编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。在 S...
阅读原文

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...
阅读原文

Embodied Reasoner

Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基...
阅读原文

讯飞星辰MaaS

讯飞星辰MaaS是科大讯飞推出的AI大模型定制微调平台,创建你的专属定制大模型。讯飞星辰MaaS汇集20多个行业内知名的优质模型,如星火大模型、Llama3、DeepSee...
阅读原文

Qwen2.5-VL-32B

Qwen2.5-VL-32B是阿里巴巴开源的多模态模型,参数规模为32B。模型在Qwen2.5-VL系列的基础上,基于强化学习优化,具备更符合人类偏好的回答风格、显著提升的数...
阅读原文

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂度,减少了KV-Cache...
阅读原文

腾讯混元T1

T1(Thinker)是腾讯混元推出的最新深度思考模型,已正式上线接入腾讯元宝。模型专注于逻辑推理和深度思考,支持联网搜索功能,能从互联网信源、微信公众号、...
阅读原文

OmniHuman

OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman...
阅读原文

微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!

原标题:微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」! 文章来源:新智元 内容字数:6294字微软大型行动模型LAM:AI从“聊天”到“行动”的跨...
阅读原文
12