标签:多模态理解

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

GLM-Experimental

GLM-Experimental 是智谱AI推出的实验性大语言模型,已在旗下平台 Z.ai 上线。模型支持自动生成PPT,用户只需输入主题或内容要点,可快速生成结构清晰、格式...
阅读原文

DeepSeek R1T2

DeepSeek R1T2 (DeepSeek-TNG R1T2 Chimera)是TNG基于 DeepSeek 原始模型开发的改进型人工智能语言模型。采用 Tri-Mind 架构,融合了 DeepSeek R1-0528、R1...
阅读原文

GLM-4.1V-Thinking

GLM-4.1V-Thinking是智谱AI推出的开源视觉语言模型,专为复杂认知任务设计,支持图像、视频、文档等多模态输入。模型在GLM-4V架构基础上引入思维链推理机制,...
阅读原文

RecGPT

RecGPT是淘天集团推出的百亿参数推荐大模型。现已全面接入手机淘宝首屏“猜你喜欢”信息流,基于融合多模态认知、用户行为分析及实时热点理解,精准捕捉用户长...
阅读原文

Qwen VLo

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感...
阅读原文

混元-A13B

混元-A13B是腾讯最新推出的开源大语言模型,基于专家混合(MoE)架构,总参数量达800亿,激活参数为130亿。具备轻量级设计和高效推理能力,仅需1张中低端GPU...
阅读原文

盘古大模型 5.5

盘古大模型5.5是华为在开发者大会(HDC 2025)上发布的最新一代人工智能大模型。模型强调“不作诗,只做事”,专注于解决实际产业问题,推动千行百业的智能化升...
阅读原文

Kimi-Researcher

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,专为深度研究任务而设计。能...
阅读原文

V-JEPA 2

V-JEPA 2 是Meta AI推出的世界大模型,基于视频数据实现对物理世界的理解、预测和规划。V-JEPA 2 用于 12 亿参数的联合嵌入预测架构(JEPA),基于自监督学习...
阅读原文

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可...
阅读原文

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...
阅读原文

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构,能高效处理长文本任务;0.5B 版本以低计算资...
阅读原文

从容大模型

从容大模型是云从科技推出的多模态AI模型。模型在国际权威评测平台OpenCompass的多模态榜单中以80.7分登顶,超越谷歌、OpenAI等顶尖团队。
阅读原文

MiMo-VL

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。
阅读原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
阅读原文
12