AI项目和框架

Firesearch

Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术,结合 OpenAI GPT-4o 的搜索规划和内容生成能力,将复...
阅读原文

OCode

OCode 是终端原生 AI 编程助手,为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成,将企业级 AI 辅助直接融入开发流程中。终端原...
阅读原文

Jaaz

Jaaz 是开源的 AI 设计工具,是 Lovart 的本地免费替代品。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、...
阅读原文

VRAG-RL

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基...
阅读原文

TrackVLA

TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路...
阅读原文

TEN VAD

TEN VAD 是高性能的实时语音活动检测系统,专为企业级应用设计。TEN VAD能精确地检测音频流中的语音活动,具有低延迟、轻量级和高精度的特点。TEN VAD 基于先...
阅读原文

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用,支持让用户在本地设备上体验和使用机器学习(ML)及生成式人工智能(GenAI)模型。应用目前支持在 Android...
阅读原文

从容大模型

从容大模型是云从科技推出的多模态AI模型。模型在国际权威评测平台OpenCompass的多模态榜单中以80.7分登顶,超越谷歌、OpenAI等顶尖团队。
阅读原文

DeepEyes

DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习,实现类似 OpenAI o3 的“用图思考”能力,无需依赖监督微调(SFT)。...
阅读原文

Circuit Tracer

Circuit Tracer 是 Anthropic 推出的开源工具,用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图(attribution graphs)揭示模型在生成特...
阅读原文

DGM

DGM(Darwin Gödel Machine)是自改进人工智能系统,通过迭代修改自身代码来提升性能。DGM从其维护的编码代理档案中选择一个代理,基于基础模型生成新版本,...
阅读原文

SignGemma

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,...
阅读原文

FLUX.1 Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格...
阅读原文

EVI 3

EVI 3是Hume AI推出的全新语音语言模型,模型能同时处理文本和语音标记,实现自然、富有表现力的语音交互。模型支持高度个性化,根据用户提示生成任何声音和...
阅读原文

OmniSync

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架,基于扩散变换器(Diffusion Transformers)实现视频中人物口型与语音的精准同步。Omn...
阅读原文
189101112131