Chitu

AI工具3周前更新 AI工具集
516 0 0

Chitu – 清华联合清程极智开源的大模型推理引擎

Chitu(赤兔)是由清华大学高性能计算研究所与清程极智联合开发的开放源代码高性能大模型推理引擎,旨在应对大模型推理阶段的高昂成本和低效能问题。该引擎具备卓越的硬件适配能力,支持多种英伟达GPU及国产芯片,成功打破了对特定硬件(如英伟达Hopper架构)的依赖。在性能方面,赤兔引擎在A800集群上部署DeepSeek-R1-671B时,相比于部分国外开源框架,GPU使用量减少50%,推理速度提升超过3倍,能够满足不同规模和场景的推理需求。

Chitu是什么

Chitu(赤兔)是一款高性能的大模型推理引擎,由清华大学高性能计算研究所与清程极智联合开源。该引擎特别设计用于解决大模型在推理阶段面临的高成本与低效率问题,具备强大的硬件适应性,支持多款英伟达GPU及国产芯片,成功消除了对特定硬件的依赖。在性能方面,赤兔引擎在A800集群上部署DeepSeek-R1-671B时,较部分国外开源框架GPU使用量减少50%,推理速度提升3.15倍,支持从纯CPU到大规模集群的全面部署,能够满足多种规模和场景的推理需求。

Chitu

Chitu的主要功能

  • 多种算力适配:支持从最新旗舰到旧款的多系列英伟达GPU,并为国产芯片提供优化支持,打破了对英伟达Hopper架构的依赖。
  • 可扩展的全场景部署:无论是纯CPU、单GPU还是大规模集群,赤兔引擎都能提供灵活的解决方案,满足不同规模和场景的推理需求。
  • 低延迟优化:针对对响应时间要求严格的场景,诸如金融风控,优化模型推理速度,减少延迟。
  • 高吞吐量优化:在高并发场景下(如智能客服),提高单位时间内处理的请求数量。
  • 显存占用优化:降低单卡显存的占用,使企业能够以更少的硬件资源获得更高的推理性能。
  • 稳定运行保障:赤兔引擎可在实际生产环境中长期稳定运行,承载并发业务流量。
  • 即插即用的解决方案:清程极智推出了基于赤兔的推理一体机,提供开箱即用的部署方案和专业运维服务,简化企业AI落地的流程。

Chitu的技术原理

  • 底层技术创新:赤兔引擎通过底层技术创新,实现了在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型,打破了对高端英伟达H系列GPU的依赖。
  • 算子级优化:赤兔对关键算子(如GeMM、MoE等)进行了指令级优化,直接处理FP8数据,确保模型精度无损,同时显著提升推理速度。在A800集群测试中,相比部分国外开源框架,赤兔引擎在GPU使用量减少50%的情况下,推理速度仍提升3.15倍。
  • 全场景性能优化:赤兔引擎支持低延迟、高吞吐量和小显存的优化,根据不同场景需求,在不同硬件配置和系统环境下提供最佳解决方案。
  • 并行计算与编译优化:赤兔引擎积累了清华大学团队多年的并行计算和编译优化技术,通过智能编译加速高性能算子的开发过程,迅速实现对不同硬件架构的优化。

Chitu的项目地址

Chitu的应用场景

  • 风险识别与预警:赤兔引擎可快速处理大量交易数据,实时监测潜在风险,帮助金融机构提高风险管理的效率。
  • 智能客服与客户体验提升:借助大模型智能知识库,快速响应客户需求,提升服务体验。
  • 疾病诊断辅助:赤兔引擎能迅速处理医疗数据,提高疾病诊断的速度与准确性,改善患者就医体验。
  • 交通流量优化:赤兔引擎能够实时处理交通数据,优化交通流量,缓解城市拥堵。
  • 科研数据分析:赤兔引擎可高效处理科研数据,促进科研进程的加速。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...