标签:语义理解

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

FLUX-Text

FLUX-Text 是阿里推出的新型的多语言场景文本编辑框架,基于扩散模型(Diffusion Model)和轻量级字形嵌入模块。框架基于注入字形条件信息,提升复杂场景下文...
阅读原文

Seed1.5-VL

Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编...
阅读原文

F-Lite

F-Lite是Freepik团队联合FAL开源的10B参数的文生图模型。基于Freepik内部80M有版权的数据集训练,支持商业用途。F-Lite将T5-XXL作为文本编码器,基于抽取第17...
阅读原文

RepText

RepText 是Shakker Labs 和 Liblib AI推出的多语言视觉文本渲染框架,基于复制字形而非理解文本内容实现高质量的文本渲染。框架基于预训练的单语言文本到图像...
阅读原文

易笔AI

易笔AI是AI论文写作辅助工具,专为学生、研究人员以及各类学术写作者设计。通过先进的AI技术和大数据分析,能快速生成高质量的论文初稿和框架。
阅读原文

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型。基于文心大模型4.5的基础上进行优化,具备多模态、强推理能力,能处理文本、图像等多种输入形...
阅读原文

DAM-3B

DAM-3B(Describe Anything 3B)是英伟达推出的多模态大语言模型,专为生成图像和视频中特定区域的详细描述设计。模型通过点、边界框、涂鸦或掩码等方式指定...
阅读原文

Flex.2-preview

Flex.2-preview 是Ostris开源的 80 亿参数文本到图像扩散模型,支持通用控制输入(如线条、姿态、深度)和内置修复功能。模型基于一个模型满足多种创意需求,...
阅读原文

可灵2.0

可灵2.0是快手推出的新一代 AI 视频生成模型,现已上线可灵AI视频平台。平台更新包含可灵2.0(大师版)和可图2.0两大基础模型。可图2.0大幅提升图片生成质量...
阅读原文

明岐

明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影...
阅读原文

WorldScore

WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同...
阅读原文

GLM-Z1-Rumination

GLM-Z1-Rumination 是智谱公司推出的沉思模型,基于 GLM-Z1 进一步优化而成。GLM-Z1-Rumination基于扩展强化学习训练,提升模型结合工具使用完成长程推理的能...
阅读原文

OmniSQL

OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 SynSQL-2.5M,包...
阅读原文

Motia

Motia 是专为软件工程师设计的 AI Agent 框架,简化 AI 智能体的开发、测试和部署过程。支持多种编程语言,如 Python、TypeScript 和 Ruby,开发者可以使用熟...
阅读原文

LangManus

LangManus 是 AI 自动化框架,基于分层多智能体系统设计。包含多种智能体,如协调员、规划员、研究员、程序员等,各司其职,协同完成复杂任务。框架支持多种...
阅读原文
1239