标签:文本生成

ImageBind

ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥...
阅读原文

M2UGen

M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和...
阅读原文

Ovis1.6

Ovis1.6是阿里国际AI团队推出的多模态大模型,在多模态权威综合评测基准OpenCompass上取得了优异的成绩,特别是在30亿参数以下的模型中综合得分排名第一,超...
阅读原文

华知大模型5.0

华知大模型5.0是同方知网与华为云联合推出的AI大模型,具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力,涵盖从7B到135B不等的多...
阅读原文

Textero.ai

Textero.ai 是一款基于人工智能的写作助手,专门设计来辅助学术写作和研究。通过访问庞大的学术数据库,使用先进的算法和自然语言处理技术,快速生成高质量的...
阅读原文

AiNiee

AiNiee 是一款AI翻译工具,能一键自动翻译RPG、SLG游戏、Epub、TXT格式的小说、Srt、Lrc字幕文件等。工具支持多格式文件,接入多个主流AI接口平台,如OpenAI...
阅读原文

MMMLU

MMMLU(多语言大规模多任务语言理解)是由OpenAI推出的一个开源数据集,旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在...
阅读原文

Llama 3.2

Llama 3.2是Meta公司最新推出的开源AI大模型系列,包括小型和中型视觉语言模型(11B和90B参数)以及轻量级纯文本模型(1B和3B参数)。Llama 3.2模型专为边缘...
阅读原文

PopShort.AI

PopShort.AI 是一个AI短剧创作平台,通过 AI 技术为用户带来沉浸式的互动体验和独特的剧情。平台的特色在于能提供每周更新的一分钟左右的短剧,适合忙碌的现...
阅读原文

NeMo

NeMo 是由 NVIDIA 提供的端到端云原生框架,用于构建、定制和部署生成式 AI 模型。支持大型语言模型(LLMs)、多模态模型、语音识别和文本转语音(TTS)等应...
阅读原文

Mini-LLaVA

Mini-LLaVA是一款轻量级的多模态大语言模型,由清华大学和北京航空航天大学的研究团队联合开发。能处理图像、文本和视频输入,实现高效的多模态数据处理。Min...
阅读原文

Molmo 72B

Molmo 72B是由艾伦人工智能研究所(Ai2)推出的一个开源多模态AI模型,专门设计用于处理和理解图像和文本数据。基于Qwen2-72B模型,使用OpenAI的CLIP作为视觉...
阅读原文

CapsWriter-Offline

CapsWriter-Offline是一款高效的PC端离线语音输入和字幕转录工具,支持用户通过简单的按键操作实现实时语音转文字。软件适合快速记录和转写大量语音信息的场...
阅读原文

byword

byword是一个多功能的AI文章生成工具,帮助用户快速创建大量高质量、SEO优化的文章。支持批量生成文章、关键词生成标题列表、自动添加图片和标题,多语言支持。
阅读原文

Gradio

Gradio 是一个开源的 Python 库,简化机器学习模型的演示和共享过程。支持开发者基于简单的代码快速创建出友好的网页界面,任何人、任何地点能轻松使用机器学...
阅读原文
156789