AI项目和框架

HouseCrafter

HouseCrafter 是由东北大学和 Stability AI 推出的先进技术,将二维平面图自动转换成三维室内场景。基于一个网络规模图像训练的2D扩散模型,生成一致的多视图...
阅读原文

AMD-135M

AMD-135M是AMD推出的首款小型语言模型(SLM),为特定用例提供性能与资源消耗之间的平衡。基于LLaMA2模型架构,在AMD Instinct MI250加速器上训练,基于670亿...
阅读原文

JoyHallo

JoyHallo 是京东开源的AI数字人模型,专为普通话设计,能根据音频生成逼真的说话视频。特别适合处理普通话的复杂口型和语调,具有跨语言生成视频的能力。
阅读原文

Seed-VC

Seed-VC 是一种零样本声音转换技术,基于上下文学习实现高质量的音频输出和音色相似度。用户无需进行特定训练,只需提供1到30秒的参考语音样本,实现声音的克...
阅读原文

Phidias

Phidias是一个先进的3D内容生成模型,将检索增强生成(RAG)的概念引入到3D建模领域。模型能基于用户提供的或从大型数据库中检索到的3D参考模型,辅助生成新...
阅读原文

Movie Gen

Movie Gen 是 Meta 推出的AI视频生成工具,能根据文本提示生成和编辑视频,为视频配上同步音频。技术包括创建长达16秒的高清视频、为现有视频配上音频、编辑...
阅读原文

Mini-LLaVA

Mini-LLaVA是一款轻量级的多模态大语言模型,由清华大学和北京航空航天大学的研究团队联合开发。能处理图像、文本和视频输入,实现高效的多模态数据处理。Min...
阅读原文

MemoryScope

MemoryScope是一个为大型语言模型(LLM)聊天机器人设计的长期记忆系统。通过构建一个框架,使机器人记住用户的基础信息、习惯和偏好,提供个性化的交互体验...
阅读原文

CogView3

CogView3是清华大学联合智谱AI推出的开源AI图像生成模型,采用中继扩散技术。模型分阶段生成图像,首先创建低分辨率图像,然后通过中继超分辨率技术提升至高...
阅读原文

RTranslator

RTranslator 是一款开源、免费、离线实时翻译应用程序,专为 Android 设备设计。基于先进的AI技术,包括 Meta 的 NLLB 翻译模型和 OpenAI 的 Whisper 语音识...
阅读原文

Molmo 72B

Molmo 72B是由艾伦人工智能研究所(Ai2)推出的一个开源多模态AI模型,专门设计用于处理和理解图像和文本数据。基于Qwen2-72B模型,使用OpenAI的CLIP作为视觉...
阅读原文

ProX

ProX(Programming Every Example)是一个旨在提高大型语言模型预训练数据质量的框架。与传统依赖人类专家制定规则的方法不同,ProX将数据清洗任务视为编程问...
阅读原文

OutofFocus

OutofFocus是一个基于AI技术的图像编辑工具,基于Gradio平台为用户提供一个直观的界面操作和编辑图片。工具的核心功能是接受用户的文本提示,运用自然语言处...
阅读原文

TeleChat2-115B

TeleChat2-115B是由中国电信人工智能研究院(TeleAI)研发的大型语言模型,属于星辰语义大模型系列。基于国产算力进行训练,采用10万亿Tokens的中英文高质量...
阅读原文

GroundingBooth

GroundingBooth 是一个先进的文本到图像定制框架,由华盛顿大学圣路易斯分校、Adobe和普渡大学的研究团队共同推出。基于文本-图像对齐模块和遮罩交叉注意力层...
阅读原文
1676869707184