多模态交互 - 第 2 页

鸿蒙智能体框架（HMAF）是什么？一文看懂

鸿蒙智能体框架（Harmony Agent Framework，简称 HMAF）是华为公司为其自主研发的鸿蒙操作系统（HarmonyOS）打造的一款核心人工智能框架。在于构建一个具备...

阅读原文

AI百科

10个月前

AI智能体（AI Agent）是什么？一文看懂

AI智能体（AI Agent），也被称为人工智能体，是人工智能领域中的一个核心概念，指的是能感知其环境、进行自主决策并采取行动以实现特定目标的智能实体或计算...

阅读原文

AI百科

10个月前

Kimi-Dev

Kimi-Dev是Moonshot AI推出的开源代码模型，专为软件工程任务设计。模型拥有 72B 参数量，编程水平比最新的DeepSeek-R1还强，和闭源模型比较也表现优异。在 S...

阅读原文

AI工具

11个月前

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型，具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...

阅读原文

AI工具

1年前 (2025)

Embodied Reasoner

Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型，基于视觉搜索、推理和行动协同完成复杂任务。模型基...

阅读原文

AI工具

1年前 (2025)

讯飞星辰MaaS

讯飞星辰MaaS是科大讯飞推出的AI大模型定制微调平台，创建你的专属定制大模型。讯飞星辰MaaS汇集20多个行业内知名的优质模型，如星火大模型、Llama3、DeepSee...

阅读原文

AI工具

1年前 (2025)

Qwen2.5-VL-32B

Qwen2.5-VL-32B是阿里巴巴开源的多模态模型，参数规模为32B。模型在Qwen2.5-VL系列的基础上，基于强化学习优化，具备更符合人类偏好的回答风格、显著提升的数...

阅读原文

AI工具

1年前 (2025)

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构，有效降低了传统Transformer的计算复杂度，减少了KV-Cache...

阅读原文

AI工具

1年前 (2025)

腾讯混元T1

T1（Thinker）是腾讯混元推出的最新深度思考模型，已正式上线接入腾讯元宝。模型专注于逻辑推理和深度思考，支持联网搜索功能，能从互联网信源、微信公众号、...

阅读原文

AI工具

1年前 (2025)

OmniHuman

OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman...

阅读原文

AI工具

1年前 (2025)

微软华人团队最新研究：从LLM到LAM，让大模型真正具有「行动力」！

原标题：微软华人团队最新研究：从LLM到LAM，让大模型真正具有「行动力」！文章来源：新智元内容字数：6294字微软大型行动模型LAM：AI从“聊天”到“行动”的跨...

阅读原文

AIGC动态

1年前 (2025)

引领人机交互？微软研究团队发布80页的大模型GUI智能体综述

人机交互方式正在发生变革。

阅读原文

AIGC动态

1年前 (2025)

具身智能2025第一融，智平方宣布完成数亿元Pre-A轮融资

率先实现端到端具身大模型商业化

阅读原文

AIGC动态

1年前 (2025)

GUI Agent综述 : 2-GUI Agent的三大技术基石

本文主要介绍铸就GUI Agent的三大技术基石。

阅读原文

AIGC动态

1年前 (2025)

LLaVA-o1：开源视觉语言模型助力智能理解与生成内容

LLaVA-o1是北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队推出的开源视觉语言模型，基于Llama-3.2-Vision...

阅读原文

AI工具

1年前 (2024)

标签：多模态交互