Chitu

AI工具1年前 (2025)更新 AI工具集

Chitu – 清华联合清程极智开源的大模型推理引擎

Chitu（赤兔）是由清华大学高性能计算研究所与清程极智联合开发的开放源代码高性能大模型推理引擎，旨在应对大模型推理阶段的高昂成本和低效能问题。该引擎具备卓越的硬件适配能力，支持多种英伟达GPU及国产芯片，成功打破了对特定硬件（如英伟达Hopper架构）的依赖。在性能方面，赤兔引擎在A800集群上部署DeepSeek-R1-671B时，相比于部分国外开源框架，GPU使用量减少50%，推理速度提升超过3倍，能够满足不同规模和场景的推理需求。

Chitu是什么

Chitu（赤兔）是一款高性能的大模型推理引擎，由清华大学高性能计算研究所与清程极智联合开源。该引擎特别设计用于解决大模型在推理阶段面临的高成本与低效率问题，具备强大的硬件适应性，支持多款英伟达GPU及国产芯片，成功消除了对特定硬件的依赖。在性能方面，赤兔引擎在A800集群上部署DeepSeek-R1-671B时，较部分国外开源框架GPU使用量减少50%，推理速度提升3.15倍，支持从纯CPU到大规模集群的全面部署，能够满足多种规模和场景的推理需求。

Chitu

Chitu的主要功能

多种算力适配：支持从最新旗舰到旧款的多系列英伟达GPU，并为国产芯片提供优化支持，打破了对英伟达Hopper架构的依赖。
可扩展的全场景部署：无论是纯CPU、单GPU还是大规模集群，赤兔引擎都能提供灵活的解决方案，满足不同规模和场景的推理需求。
低延迟优化：针对对响应时间要求严格的场景，诸如金融风控，优化模型推理速度，减少延迟。
高吞吐量优化：在高并发场景下（如智能客服），提高单位时间内处理的请求数量。
显存占用优化：降低单卡显存的占用，使企业能够以更少的硬件资源获得更高的推理性能。
稳定运行保障：赤兔引擎可在实际生产环境中长期稳定运行，承载并发业务流量。
即插即用的解决方案：清程极智推出了基于赤兔的推理一体机，提供开箱即用的部署方案和专业运维服务，简化企业AI落地的流程。

Chitu的技术原理

底层技术创新：赤兔引擎通过底层技术创新，实现了在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型，打破了对高端英伟达H系列GPU的依赖。
算子级优化：赤兔对关键算子（如GeMM、MoE等）进行了指令级优化，直接处理FP8数据，确保模型精度无损，同时显著提升推理速度。在A800集群测试中，相比部分国外开源框架，赤兔引擎在GPU使用量减少50%的情况下，推理速度仍提升3.15倍。
全场景性能优化：赤兔引擎支持低延迟、高吞吐量和小显存的优化，根据不同场景需求，在不同硬件配置和系统环境下提供最佳解决方案。
并行计算与编译优化：赤兔引擎积累了清华大学团队多年的并行计算和编译优化技术，通过智能编译加速高性能算子的开发过程，迅速实现对不同硬件架构的优化。