AI项目和框架

video-use

Video-use 是 Browser Use 团队开源的 AI 视频剪辑 Agent,通过自然语言对话替代传统时间线操作。用户只需将原始素材放入文件夹并描述需求,Agent 自动完成素...
阅读原文

TabFM

TabFM 是 Google Research 推出的零样本表格基础模型,支持对混合数值与类别特征的结构化数据进行分类(最多10类)和回归。模型在数百亿合成表格数据上训练,...
阅读原文

SemanticAudio

SemanticAudio 是香港中文大学、LIGHTSPEED、上海交通大学联合推出的音频生成与编辑框架。框架将文本到音频生成拆分为"语义规划"与"声学合成&...
阅读原文

ViiTorVoice

ViiTorVoice 是云上曲率推出的全球首个支持局部编辑的 AI 语音合成模型,登顶 Seed-TTS 权威评测榜首。它采用 NAR 非自回归架构,实现"像改 Word 一样修...
阅读原文

Astryx

Astryx 是 Meta 开源的 React 设计系统,目前处于 Beta 阶段。系统基于 React 与 StyleX 构建,提供 150+ 可访问组件、品牌级主题、暗黑模式、即用型模板及 C...
阅读原文

Nemotron-Labs-TwoTower

NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下...
阅读原文

GeneBench-Pro

GeneBench-Pro 是 OpenAI 推出的研究级基准测试,用于评估 AI 模型在计算生物学中处理判断密集型分析的能力。GeneBench-Pro 包含 129 个跨基因组学、定量生物...
阅读原文

WorldCupVoice

WorldCupVoice 是开源的 AI 实时体育解说系统,通过接入 Agora RTC 直播流,由视觉模型分析比赛画面并生成实时语音解说,回传至直播间与观众同步收听。
阅读原文

Claude Sonnet 5

Claude Sonnet 5是Anthropic推出的 Sonnet 系列中智能体能力最强的模型,支持制定计划、调用浏览器和终端等工具并自主运行。
阅读原文

LiveWorld

LiveWorld 是阿德莱德大学、澳大利亚国立大学等机构联合推出的生成式视频世界模型,核心解决视野外动态问题,当物体离开相机视野后,传统模型会将其状态冻结...
阅读原文

Mirawork

Mirawork 是安全优先的桌面 AI 办公智能体,支持 macOS/Windows/Linux。用户用自然语言下达任务,Mirawork能自动拆解需求、调用内置技能链完成执行,覆盖文档...
阅读原文

Nano Banana 2 Lite

Nano Banana 2 Lite 是谷歌推出的自研轻量级 AI 图像生成模型,定位速度优先的极速版,可在 4 秒内生成单张图像,每千张收费仅 0.034 美元。
阅读原文

LocateAnything

LocateAnything是英伟达推出的视觉语言定位模型,基于并行框解码技术,用户输入自然语言即可在图像中精准框选目标。模型支持多目标检测、GUI定位、OCR文本检...
阅读原文

yuxinlu1 Gemma4-12B

yuxinlu1 Gemma4-12B 是个人开发者逯雨基于 Google Gemma 4 12B 指令模型微调的开源编程与 Agentic 模型系列,包含 V1 代码版和 V2 Agentic 版 。
阅读原文

LongCat-2.0

LongCat-2.0 是美团开源的大规模 MoE 语言模型,拥有 1.6 万亿总参数,每 token 激活约 480 亿,基于 AI ASIC 超算集群完成训练与部署。
阅读原文
123201