AI项目和框架

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义...
阅读原文

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型。基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。模型参数量分别...
阅读原文

News Agents

News Agents基于终端的新闻聚合与摘要系统。基于Amazon Q CLI作为 Agent 框架,用Model Context Protocol (MCP)解析RSS新闻源,借助tmux实现终端分割和多任...
阅读原文

Imagen 4

Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面...
阅读原文

Pixel3DMM

Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出...
阅读原文

AutoBE

AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调...
阅读原文

Index-AniSora

Index-AniSora 是哔哩哔哩开源的先进动漫视频生成模型,模型支持一键生成多种动漫风格的视频,涵盖番剧片段、国创动画、VTuber 内容等。模型包含超过 1000 万...
阅读原文

Veo 3

Veo 3是谷歌I/O开发者大会上发布的新一代视频生成模型。Veo 3是谷歌首个可生成视频背景音效的模型,能合成画面,能为鸟鸣、街头交通等场景配上相应的音效,可...
阅读原文

豆包·语音播客模型

豆包·语音播客模型是字节跳动旗下火山引擎推出的语音播客模型。模型基于流式模型构建,可将文本秒级转化为双人对话式播客,具有低成本、高时效、强互动特点。...
阅读原文

II-Agent

II-Agent 是开源的Agent框架,通过与大型语言模型(LLM)的交互,简化和提升跨多个领域的工作流程。具备多种核心功能,包括研究与事实核查、内容生成、数据分...
阅读原文

NLWeb

NLWeb 是微软推出的开源项目,基于简化网站自然语言界面的创建,让任何网站都能变成 AI 驱动的应用程序。NLWeb用 Schema.org、RSS 等半结构化数据,结合 LLM ...
阅读原文

EvoAgentX

EvoAgentX 是开源的 AI Agent 自进化框架,通过进化算法实现多 Agent 系统的自动化生成与优化。能根据目标描述自动生成工作流,通过迭代优化提升性能。
阅读原文

ScaleMCP

ScaleMCP是普华永道推出的工具选择方法,动态的为大型语言模型(LLM)Agents 配备Model Context Protocol(MCP)工具。基于自动同步工具存储系统与MCP服务器...
阅读原文

Agent Squad

Agent Squad 是轻量级、开源的多 Agents 框架,用在协调多个 AI Agents 处理复杂对话。Agent Squad支持 Python 和 TypeScript 两种语言,根据用户输入动态路...
阅读原文

Magentic-UI

Magentic-UI 是微软推出的开源研究原型,用在探索人类参与的 AI Agent系统。Magentic-UI 是以人为中心的 Web  Agent,能与用户协作完成复杂的 Web 任务,如浏...
阅读原文
13132333435150