多模态大模型

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

Keye-VL-2.0-30B-A3B

Keye-VL-2.0-30B-A3B是快手开源的自研多模态大模型，为 30B 级主力基座。模型首次将 DSA 稀疏注意力引入多模态场景，支持 256K 超长上下文，实现小时级视频...

阅读原文

AI工具

3周前

Qwen3-Max-Thinking

Qwen3-Max-Thinking是阿里最新推出的千问旗舰推理模型，参数量超1万亿，预训练数据达36T Tokens。模型通过测试时扩展机制和强化学习，显著提升推理性能和效率...

阅读原文

AI工具

5个月前

Qianfan-VL

Qianfan-VL是百度智能云千帆推出的面向企业级多模态应用场景的视觉理解大模型。模型包含3B、8B和70B三种尺寸版本，具备出色的通用能力和针对OCR、教育等垂直...

阅读原文

AI工具

9个月前

InternVLA-A1

InternVLA-A1 是上海人工智能实验室和国家地方共建人形机器人创新中心联合发布的具身操作大模型。具备理解、想象、执行一体化的能力，能精准地完成任务。模型...

阅读原文

AI工具

9个月前

大语言模型简史：从Transformer（2017）到DeepSeek-R1（2025）的进化之路

原标题：大语言模型简史：从Transformer（2017）到DeepSeek-R1（2025）的进化之路文章来源：人工智能学家内容字数：24587字大型语言模型（LLM）发展简史：...

阅读原文

AIGC动态

1年前 (2025)

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单，腾讯混元Research&清华&NTU联手打造

Ola 的核心设计在于其渐进式模态对齐策略。

阅读原文

AIGC动态

1年前 (2025)

单卡3090帮你一口气看完《黑悟空》，港大百度打造超长视频理解引擎VideoRAG

研究团队还建立了全新的 LongerVideos 基准数据集。

阅读原文

AIGC动态

1年前 (2025)

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

第一个结合SAM-2和LLaVA-like的视频多模态大模型。

阅读原文

AIGC动态

1年前 (2025)

反超 DeepSeek-V3，新发布的 Qwen2.5-Max 到底有多牛？

登上大模型盲测榜单全球前十，数学及编程能力夺冠。

阅读原文

使用教程

1年前 (2025)

年末重磅！ByteDance Research视频理解大模型「眼镜猴」正式发布

补齐多模态最后一块短板，Tarsier2 反超 GPT4o、Gemini-1.5-Pro！

阅读原文

AIGC动态

1年前 (2025)

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

由月更加速到日更，阶跃模型迭代驶入「快车道」。

阅读原文

AIGC动态

1年前 (2025)

年底基座大模型轮番炸场，谁是“多模态之王”？｜甲子光年

多模态语音、视觉理解及生成火力全开。

阅读原文

AIGC动态

1年前 (2025)

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

V2PE 的提出将为视觉 - 语言模型的发展带来新的机遇。

阅读原文

AIGC动态

1年前 (2025)

前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

胡瀚是计算机视觉领域通用架构Swim Transformer的核心作者之一。

阅读原文

AIGC动态

1年前 (2025)

通用UI导航智能体的底座！苹果手机端UI多模态大模型Ferret-UI 2解读

详细解读Ferret-UI 2模型

阅读原文

AIGC动态

1年前 (2024)

标签：多模态大模型