AI项目和框架 - 第 70 页

4D-LRM

4D-LRM（Large Space-Time Reconstruction Model）是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意...

阅读原文

AI工具

12个月前

VLN-R1

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架，基于大型视觉语言模型（LVLM）直接将第一人称视频流转换为连续的导航动作。框架基于Habit...

阅读原文

AI工具

12个月前

Nanonets-OCR-s

Nanonets-OCR-s（Nanonets OCR Small）是Nanonets推出的图像到 Markdown 的 OCR 模型，支持将图像中的文档内容转换为结构化的 Markdown 格式。模型能提取文本...

阅读原文

AI工具

12个月前

Kwai Keye-VL

Kwai Keye-VL 是快手自主研发的多模态大语言模型，基于 Qwen3-8B 语言模型整合SigLIP初始化的视觉编码器，支持动态分辨率输入。模型能深度融合和处理文本、图...

阅读原文

AI工具

12个月前

Gemini CLI

Gemini CLI 是谷歌开源的 AI Agent，将 Gemini 大模型融入开发者终端。Gemini CLI提供强大 AI 功能，如代码理解、文件操作、命令执行及动态排查问题，助力开...

阅读原文

AI工具

12个月前

AlphaGenome

AlphaGenome是谷歌DeepMind推出的全新AI模型，能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入，预测数千种表征其调控活性的分子特性，评估...

阅读原文

AI工具

12个月前

Claudia

Claudia 是为 Claude Code 设计的桌面应用程序和工具包，通过直观的图形界面提升 AI 辅助开发的效率和安全性。支持项目与会话管理，用户可以轻松浏览、恢复过...

阅读原文

AI工具

12个月前

DRA-Ctrl

DRA-Ctrl（Dimension-Reduction Attack）是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维...

阅读原文

AI工具

12个月前

DAMO GRAPE

DAMO GRAPE是浙江省肿瘤医院与阿里巴巴达摩院联合推出的全球首个基于平扫CT识别早期胃癌的AI模型。DAMO GRAPE突破传统影像学限制，基于深度学习分析非增强CT...

阅读原文

AI工具

12个月前

Seed1.6

Seed1.6是字节跳动Seed团队推出的通用模型系列，融合多模态能力，支持256K长上下文深度推理。Seed1.6沿用Seed1.5稀疏MoE探索成果，经纯文本预训练、多模态混...

阅读原文

AI工具

12个月前

AnimaTensor

AnimaTensor是CagliostroLab团队和TensorArt共同推出的二次元图像生成模型。基于创新的V-Prediction技术，用预测图像生成过程中的“速度”优化噪声调度和采样策...

阅读原文

AI工具

12个月前

Gemini Robotics On-Device

Gemini Robotics On-Device是谷歌DeepMind推出的首个可在机器人本地运行的视觉-语言-动作（VLA）模型。模型具备强大的离线操作能力，能遵循自然语言指令完成...

阅读原文

AI工具

12个月前

OmniAvatar

OmniAvatar是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。模型根据输入的音频和文本提示，生成自然、逼真的全身动画视频，人物动作与音频完...

阅读原文

AI工具

12个月前

ImmerseGen

ImmerseGen是字节跳动的PICO团队和浙江大学联合推出的创新3D世界生成框架。框架根据用户输入的文字提示，基于Agent引导的资产设计和排列，生成带有alpha纹理...

阅读原文

AI工具

12个月前

Mu

Mu是微软推出的小参数语言模型，仅3.3亿参数，支持在 NPU 和边缘设备上高效运行。模型基于编码器解码器架构，基于硬件感知优化、模型量化及特定任务微调，实...

阅读原文

AI工具

12个月前