AI项目和框架

华知大模型5.0

华知大模型5.0是同方知网与华为云联合推出的AI大模型,具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力,涵盖从7B到135B不等的多...
阅读原文

LVCD

LVCD(Large Video Color Diffusion)是一个专为动画视频线稿上色设计的视频扩散框架,能将黑白线稿自动转化为彩色动画视频。LVCD使用了一种先进的扩散模型,...
阅读原文

LLaMA-Omni

LLaMA-Omni 是中国科学院计算技术研究所和中国科学院大学研究者推出的新型模型架构,用于实现与大型语言模型(LLM)的低延迟、高质量语音交互。通过集成预训...
阅读原文

SCoRe

SCoRe(Self-Correction via Reinforcement Learning)是谷歌DeepMind推出的一种创新的多轮强化学习方法,旨在提高大型语言模型(LLM)的自我纠错能力。通过...
阅读原文

AiNiee

AiNiee 是一款AI翻译工具,能一键自动翻译RPG、SLG游戏、Epub、TXT格式的小说、Srt、Lrc字幕文件等。工具支持多格式文件,接入多个主流AI接口平台,如OpenAI...
阅读原文

ANTO

ANTO是一款开源的Windows桌面字幕翻译工具,用于翻译SRT格式的视频字幕文件。集成多种翻译引擎,如谷歌翻译、DeepL、微软翻译、百度翻译和有道翻译等,用户根...
阅读原文

OpenMusic

OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技术的高质量文生音乐模型。基于先进的AI算法,根据文本描述生成高质量的音乐作...
阅读原文

SFR-RAG

SFR-RAG是由Salesforce AI Research推出的一款大型语言模型,专注于提升机器在理解和生成文本方面的应用能力。模型特别强调对上下文的忠实理解,在检索增强生...
阅读原文

onewebot2

oneWebot2是一款微信AI机器人一键运行软件包,用户下载exe文件后,双击即可启动,无需复杂的Python环境配置。有图形化界面,简化配置流程,非技术用户轻松设...
阅读原文

GOT-OCR2.0

GOT-OCR 2.0是一种先进的光学字符识别(OCR)模型,推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成,能处理包括文本、...
阅读原文

豆包PixelDance

豆包PixelDance是字节跳动最新推出的AI视频生成模型,采用DiT结构,支持文生视频和图生视频。它能理解复杂指令,生成长达10秒的连贯视频片段,涵盖多主体交互...
阅读原文

豆包Seaweed

豆包Seaweed是字节跳动推出的AI视频生成模型,支持文生视频和图生视频两种模式。基于Transformer结构,利用时空压缩技术进行训练,原生支持多分辨率输出,适...
阅读原文

PortraitGen

PortraitGen是中国科学技术大学研究团队推出的一款AI人像视频编辑工具。基于3D高斯溅射技术和神经高斯纹理机制,将2D人像视频转换为4D高斯场,实现高质量的3D...
阅读原文

MMMLU

MMMLU(多语言大规模多任务语言理解)是由OpenAI推出的一个开源数据集,旨在评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。MMMLU建立在...
阅读原文

Llama 3.2

Llama 3.2是Meta公司最新推出的开源AI大模型系列,包括小型和中型视觉语言模型(11B和90B参数)以及轻量级纯文本模型(1B和3B参数)。Llama 3.2模型专为边缘...
阅读原文
1424344454662