AI项目和框架

Open NotebookLM

Open NotebookLM 是一个开源的AI工具,基于最新的开源AI模型,如Llama 3.1 405B、MeloTTS和Bark,将PDF文档转换成播客形式的音频内容。工具适合将书面信息转...
阅读原文

StoryDiffusion

StoryDiffusion是一个先进的AI图像和视频生成框架,用于从文本描述生成具有一致性的图像和视频序列。基于Consistent Self-Attention机制增强图像间的一致性,...
阅读原文

Crawl4AI

Crawl4AI是一款用 Python 开发的异步爬虫框架,专为大型语言模型(LLMs)和人工智能(AI)应用设计,简化网络爬虫和数据提取流程。基于异步架构,高效地处理...
阅读原文

Wren AI

Wren AI 是一个开源的文本到 SQL 解决方案,基于自然语言处理技术,支持用户通过自然语言提问执行数据库查询,无需编写复杂的 SQL 代码。支持多种数据库和数...
阅读原文

Podcastfy

Podcastfy 是一个开源的 Python 软件包,能将网络内容、PDF 文档及文本转换成多语言的音频对话形式。这款工具采用了先进的生成式人工智能(GenAI)技术,类似...
阅读原文

Gradio

Gradio 是一个开源的 Python 库,简化机器学习模型的演示和共享过程。支持开发者基于简单的代码快速创建出友好的网页界面,任何人、任何地点能轻松使用机器学...
阅读原文

LosslessCut

LosslessCut是一款开源的视频编辑工具,用于快速且无损地剪切和合并视频和音频文件。基于强大的FFmpeg库构建,提供一个直观的图形用户界面,用户轻松地进行剪...
阅读原文

Future You

Future You是麻省理工学院(MIT)推出的AI对话聊天产品,支持用户与60岁时的虚拟形象进行互动对话。Future You基于先进的AI技术,结合用户当前的生活目标和个...
阅读原文

PixWizard

PixWizard是一个多功能的图像到图像视觉助手,基于自然语言指令执行图像生成、编辑和翻译等任务。系统通过统一的图像-文本到图像生成框架,将多种视觉任务整...
阅读原文

screenpipe

screenpipe是一款基于AI技术,全天候监控用户电脑屏幕和麦克风的开源软件。通过捕捉屏幕活动和音频,用AI进行智能分析,提升工作效率和保障数据隐私。screenp...
阅读原文

Pyramid-Flow

Pyramid-Flow是一种先进的视频生成模型,由北京大学、快手科技和北京邮电大学的研究人员联合推出。模型根据文本提示生成长达10秒、分辨率高达1280x768、帧率2...
阅读原文

Aria

Aria是由Rhymes AI团队推出全球首个开源多模态原生混合专家(MoE)模型,能理解和处理文本、代码、图像和视频等多种输入模态。模型在多模态和语言任务上展现...
阅读原文

Swarm

Swarm是由OpenAI推出的一个实验性框架,旨在构建、编排和部署多智能体系统。基于轻量级的Agent和handoff机制,简化智能体之间的协调和执行过程,让控制更加精...
阅读原文

百度智能云一见

百度智能云一见是百度智能云推出的视觉大模型平台,旨在基于领先的视觉大模型技术和丰富的场景化算法方案,实现专业级视觉AI应用的平民化。平台打通从模型生...
阅读原文

libcom

libcom 是一个由上海交通大学 (BCMI) 实验室推出的图像合成工具箱。旨在解决前景和背景之间的不一致性问题,如外观、几何和语义上的不匹配,生成逼真的合成图...
阅读原文
1707172737484