标签:图像生成

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

DiffusionGemma

DiffusionGemma是 Google DeepMind推出的实验性开源文本扩散模型。模型基于 Gemma 4 架构与 Gemini Diffusion 研究成果构建,采用 26B MoE 设计,通过并行去...
阅读原文

Gemma 4 12B

Gemma 4 12B是谷歌开源的多模态大模型,采用业界首个无编码器统一架构,视觉和音频数据直接输入LLM主干,彻底砍掉独立编码器。
阅读原文

Qwen-VLA

Qwen-VLA 是通义实验室推出的通用视觉-语言-动作模型,以 Qwen3.5-4B 为视觉语言主干,搭配 1.15B 参数的 DiT 动作解码器。模型通过统一动作轨迹预测框架,将...
阅读原文

Qwen-Image-Bench

Qwen-Image-Bench 是通义千问团队推出的文生图模型评测数据集,规模为 1k 条测试样本,覆盖中英双语提示,支持多维度评测各类文生图模型的生成效果,采用 Apa...
阅读原文

MAI-Image-2

MAI-Image-2 是微软 AI Superintelligence 团队推出的第二代文生图模型,目前在 Arena.ai 排行榜位列全球前三。模型主打三大核心能力:增强的照片级真实感、...
阅读原文

Qwen-Image-2.0

Qwen-Image-2.0是阿里通义千问推出的新一代图像生成基础模型,支持文字渲染精准与真实质感细腻两大核心能力。模型支持1k token长指令直出专业信息图、PPT、海...
阅读原文

GLM-Image

GLM-Image 是智谱联合华为开源的新一代多模态图像生成模型,基于昇腾 Atlas 800T A2 设备和昇思 MindSpore 框架训练,是首个全流程国产芯片训练的 SOTA 模型。
阅读原文

Ring-1T-preview

Ring-1T-preview 是蚂蚁集团开源的万亿参数大模型预览版,基于 Ling 2.0 MoE 架构,在 20T 语料上预训练,通过自研强化学习系统 ASystem 进行推理能力训练。...
阅读原文

SlowFast-LLaVA-1.5

SlowFast-LLaVA-1.5(简称SF-LLaVA-1.5)是专为长视频理解设计的高效视频大语言模型。基于双流(SlowFast)机制,平衡处理更多输入帧与减少每帧令牌数量之间...
阅读原文

RynnVLA-001

RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练,学习人类操作技能,并隐式迁移到机器人手臂的操控中。
阅读原文

Auggie

Auggie 是Augment推出的 AI 驱动的智能命令行工具,专为开发者设计。工具能融入开发环境(如命令行、VS Code 和 JetBrains IDEs),能深度理解整个代码库,自...
阅读原文

dots.vlm1

dots.vlm1 是小红书 hi lab 开源的首个多模态大模型。基于一个从零训练的 12 亿参数视觉编码器 NaViT 和 DeepSeek V3 大语言模型(LLM),具备强大的视觉感知...
阅读原文

Kineto

Kineto 是 JetBrains 推出的AI无代码平台,基于 AI 技术帮助用户快速创建和部署网站及 Web 应用。用户只需用自然语言描述项目需求,Kineto 能生成完整的应用...
阅读原文

Qwen-Image

Qwen-Image 是阿里通义千问团队开源的 20B 参数MMDiT模型,是通义千问系列中首个图像生成基础模型,模型在复杂文本渲染和精确图像编辑方面表现出色,支持多行...
阅读原文

FLUX.1 Krea [dev]

FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 合作推出的最新文本到图像生成模型,支持生成更逼真、更多样化的图像,实现照片级真实感水平。
阅读原文
12311