标签:多模态理解

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

盘古大模型 5.5

盘古大模型5.5是华为在开发者大会(HDC 2025)上发布的最新一代人工智能大模型。模型强调“不作诗,只做事”,专注于解决实际产业问题,推动千行百业的智能化升...
阅读原文

Kimi-Researcher

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,专为深度研究任务而设计。能...
阅读原文

V-JEPA 2

V-JEPA 2 是Meta AI推出的世界大模型,基于视频数据实现对物理世界的理解、预测和规划。V-JEPA 2 用于 12 亿参数的联合嵌入预测架构(JEPA),基于自监督学习...
阅读原文

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可...
阅读原文

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,具有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上...
阅读原文

MiniCPM 4.0

MiniCPM 4.0 是面壁智能推出的端侧大模型。模型分为 8B 和 0.5B 两种参数规模。8B 闪电稀疏版采用创新稀疏架构,能高效处理长文本任务;0.5B 版本以低计算资...
阅读原文

从容大模型

从容大模型是云从科技推出的多模态AI模型。模型在国际权威评测平台OpenCompass的多模态榜单中以80.7分登顶,超越谷歌、OpenAI等顶尖团队。
阅读原文

MiMo-VL

MiMo-VL 是小米开源的多模态大模型,由视觉编码器、跨模态投影层和语言模型构成,视觉编码器基于Qwen2.5-ViT,语言模型是小米自研的MiMo-7B。
阅读原文

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion...
阅读原文

DeepSeek-Prover-V2-671B

DeepSeek-Prover-V2-671B 是 DeepSeek 在 Hugging Face 开源社区推出的专注于数学推理的超大规模语言模型。模型拥有 6710 亿参数,是去年发布的数学 AI 模型 ...
阅读原文

DeepSeek-R1T-Chimera

DeepSeek-R1T-Chimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V3-0324 和DeepSeek R1两种模型的优势,基于创新的构建方法,将两者的神经网络组件融...
阅读原文

SignLLM

SignLLM 是创新的多语言手语生成模型,通过文字输入生成对应的手语视频。全球首个支持多国手语的模型,能覆盖美国手语(ASL)、德国手语(GSL)、阿根廷手语...
阅读原文

LongLLaVA:多模态上下文混合架构大语言模型的创新应用与特点解析

LongLLaVA是多模态大型语言模型(MLLM),基于混合架构结合Mamba和Transformer模块,能高效处理大量图像,特别擅长视频理解和高分辨率图像分析。LongLLaVA在...
阅读原文

Imagen 3

Imagen 3是Google推出的AI图像生成模型,可以生成高质量、逼真的图像。Imagen 3对提示词理解更好,可捕捉更多细节,生成更广泛的视觉风格。基于谷歌的文生图...
阅读原文
12