AI项目和框架

IterComp

IterComp是一个由清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员联合推出的文本到图像生成框架。基于迭代反馈学习机制...
阅读原文

LayerSkip

LayerSkip是一种用在加速大型语言模型(LLMs)推理过程的技术。基于在训练阶段应用层dropout和早期退出损失,让模型在推理时从早期层开始更准确地退出,不需...
阅读原文

Spirit LM

Spirit LM是由Meta AI团队推出的一种多模态语言模型,能无缝地混合文本和语音数据。Spirit LM基于一个预训练的文本语言模型,用持续在文本和语音单元上的训练...
阅读原文

Story-Adapter

Story-Adapter 是一种新型的长篇故事可视化框架,能在保持语义一致性的同时,生成高质量且具有细腻交互的故事图像序列。通过迭代方式,基于全局参考交叉注意...
阅读原文

LOKI

LOKI是由中山大学和上海AI Lab联合提出的合成数据检测基准,旨在全面评估大型多模态模型(LMMs)在识别视频、图像、3D、文本和音频等多种模态合成数据的能力...
阅读原文

NotesGPT

NotesGPT是一款开源的AI驱动语音笔记工具,能将用户的语音笔记快速转录成文本,自动生成行动项。工具基于包括Convex数据库、Next.js框架、Together推理模型、...
阅读原文

MEXMA

MEXMA是由Meta AI推出的一种新型的预训练跨语言句子编码器。基于结合句子级和词语级的目标提升句子表示的质量。在训练过程中,MEXMA用一种语言的句子表示预测...
阅读原文

Lingua

Lingua 是 Meta AI推出的一个轻量级且独立的代码库,旨在助力大规模训练语言模型。基于易于修改的 PyTorch 组件,便于研究人员尝试新的模型架构、损失函数和...
阅读原文

VideoAgent

VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人...
阅读原文

Llama Tutor

Llama Tutor 是一个基于AI的个性化学习平台,由 Llama 3.1 和 Together AI 技术驱动,是一个完全开源的项目。支持用户输入想要学习的主题和教育水平,生成一...
阅读原文

ComfyGen

ComfyGen是由NVIDIA和特拉维夫大学研究人员推出的一种文本到图像生成系统,基于大型语言模型(LLM)自动创建与用户文本提示相匹配的工作流,提升图像生成的质...
阅读原文

restorePhotos.io

restorePhotos.io 是一个开源的AI项目,专注于修复老旧和模糊的人脸照片。用GFPGAN机器学习模型,基于Next.js API路由处理上传的照片,再返回修复后的照片。...
阅读原文

PDFtoChat

PDFtoChat 是一个开源的创新AI项目,支持用户基于自然语言对话的方式与 PDF 文件互动。工具基于最新的 AI 技术,包括 Together AI 和 Mixtral,理解用户的查...
阅读原文

Self-Taught Evaluators

Self-Taught Evaluators是一种新型的模型评估方法,基于自我训练的方式提高大型语言模型(LLM)的评估能力,无需人工标注数据。从未经标记的指令开始,用迭代...
阅读原文

TurboSeek

TurboSeek是一个开源的AI搜索引擎,由Together.ai提供技术支持。基于现代化的技术栈,包括Next.js、Tailwind、Bing搜索API及先进的语言模型Mixtral 8x7B和Lla...
阅读原文
1737475767784