AI项目和框架

Future You

Future You是麻省理工学院(MIT)推出的AI对话聊天产品,支持用户与60岁时的虚拟形象进行互动对话。Future You基于先进的AI技术,结合用户当前的生活目标和个...
阅读原文

PixWizard

PixWizard是一个多功能的图像到图像视觉助手,基于自然语言指令执行图像生成、编辑和翻译等任务。系统通过统一的图像-文本到图像生成框架,将多种视觉任务整...
阅读原文

screenpipe

screenpipe是一款基于AI技术,全天候监控用户电脑屏幕和麦克风的开源软件。通过捕捉屏幕活动和音频,用AI进行智能分析,提升工作效率和保障数据隐私。screenp...
阅读原文

Pyramid-Flow

Pyramid-Flow是一种先进的视频生成模型,由北京大学、快手科技和北京邮电大学的研究人员联合推出。模型根据文本提示生成长达10秒、分辨率高达1280x768、帧率2...
阅读原文

Aria

Aria是由Rhymes AI团队推出全球首个开源多模态原生混合专家(MoE)模型,能理解和处理文本、代码、图像和视频等多种输入模态。模型在多模态和语言任务上展现...
阅读原文

Swarm

Swarm是由OpenAI推出的一个实验性框架,旨在构建、编排和部署多智能体系统。基于轻量级的Agent和handoff机制,简化智能体之间的协调和执行过程,让控制更加精...
阅读原文

百度智能云一见

百度智能云一见是百度智能云推出的视觉大模型平台,旨在基于领先的视觉大模型技术和丰富的场景化算法方案,实现专业级视觉AI应用的平民化。平台打通从模型生...
阅读原文

libcom

libcom 是一个由上海交通大学 (BCMI) 实验室推出的图像合成工具箱。旨在解决前景和背景之间的不一致性问题,如外观、几何和语义上的不匹配,生成逼真的合成图...
阅读原文

F5-TTS

F5-TTS是由上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。系统在没有额外监督的情况下,...
阅读原文

CursorCore

CursorCore是一个基于大型语言模型(LLMs)的编程辅助框架,用对话式交互帮助程序员更高效地编写和修改代码。框架整合编程过程中的各种信息,包括代码历史、...
阅读原文

MM1.5

MM1.5是苹果公司推出的多模态大型语言模型,旨在增强文本丰富图像理解、视觉指代和定位以及多图像推理能力。模型基于数据为中心的训练方法,在大规模预训练、...
阅读原文

Surya

Surya是一款功能强大的开源OCR(光学字符识别)工具包,专门设计用在文档识别,支持超过90种语言的识别。Surya能准确识别出文档中的文本,分析文本的阅读顺序...
阅读原文

Illuminate

Illuminate 是一个由谷歌开发的项目,能将学术论文转化为人工智能生成的音频讨论。项目基于谷歌强大的语言模型 Gemini,将论文内容转换成引人入胜的对话,使...
阅读原文

Loong

Loong是由香港大学和字节跳动联合推出的一种新型长视频生成模型,能生成外观一致、动态丰富、场景过渡自然的分钟级长视频。模型基于自回归大型语言模型(LLM...
阅读原文

ScriptViz

ScriptViz是由斯坦福大学研究人员推出的一款剧本可视化辅助工具,基于大型电影数据库MovieNet,根据剧本文本和对话检索出相匹配的电影画面,将编剧的文字描述...
阅读原文
1293031323343