AI项目和框架
SemanticAudio
SemanticAudio 是香港中文大学、LIGHTSPEED、上海交通大学联合推出的音频生成与编辑框架。框架将文本到音频生成拆分为"语义规划"与"声学合成&...
ViiTorVoice
ViiTorVoice 是云上曲率推出的全球首个支持局部编辑的 AI 语音合成模型,登顶 Seed-TTS 权威评测榜首。它采用 NAR 非自回归架构,实现"像改 Word 一样修...
Nemotron-Labs-TwoTower
NVIDIA Nemotron-Labs-TwoTower 是英伟达开源的双塔架构扩散语言模型,总参数约60B、活跃参数3B。模型将上下文理解与去噪生成解耦为两个独立塔,冻结的AR上下...
GeneBench-Pro
GeneBench-Pro 是 OpenAI 推出的研究级基准测试,用于评估 AI 模型在计算生物学中处理判断密集型分析的能力。GeneBench-Pro 包含 129 个跨基因组学、定量生物...
WorldCupVoice
WorldCupVoice 是开源的 AI 实时体育解说系统,通过接入 Agora RTC 直播流,由视觉模型分析比赛画面并生成实时语音解说,回传至直播间与观众同步收听。
Nano Banana 2 Lite
Nano Banana 2 Lite 是谷歌推出的自研轻量级 AI 图像生成模型,定位速度优先的极速版,可在 4 秒内生成单张图像,每千张收费仅 0.034 美元。
LocateAnything
LocateAnything是英伟达推出的视觉语言定位模型,基于并行框解码技术,用户输入自然语言即可在图像中精准框选目标。模型支持多目标检测、GUI定位、OCR文本检...
yuxinlu1 Gemma4-12B
yuxinlu1 Gemma4-12B 是个人开发者逯雨基于 Google Gemma 4 12B 指令模型微调的开源编程与 Agentic 模型系列,包含 V1 代码版和 V2 Agentic 版 。
LongCat-2.0
LongCat-2.0 是美团开源的大规模 MoE 语言模型,拥有 1.6 万亿总参数,每 token 激活约 480 亿,基于 AI ASIC 超算集群完成训练与部署。