我的最新测评,各家公司Deepseek接口大测评。本文主要就是对测评详细情况做一个汇报
原标题:算力至上:各家公司Deepseek性能大揭秘(附:测试脚本)
文章来源:JioNLP
内容字数:4548字
Deepseek 接口大测评:字节火山引擎领跑,算力仍是王道
本文汇报了2025年2月12日至14日对多家公司Deepseek接口的测评结果。由于Deepseek官网及各大云平台算力资源紧缺,API接口和云加速卡均售罄,测评难度较大。最终仅字节火山引擎和硅基流动能够提供较为完整的Deepseek模型访问能力。
1. 测试模型及平台
本次测评测试了deepseek-r1(满血版)、deepseek-v3、deepseek-r1-distill-qwen-32b、deepseek-r1-distill-qwen-7b四种模型,涵盖了字节火山引擎、硅基流动、阿里云、腾讯云和百度云五个平台。
2. 测试结果概要
测试结果显示,字节火山引擎在模型推理速度、并发能力和稳定性方面均表现最佳。硅基流动虽然提供了r1模型,但由于算力受限,调用成功率低,推理速度缺乏参考性。阿里云和腾讯云仅提供部分蒸馏版模型,百度云则完全无法提供Deepseek能力。所有“否”的结果均因平台算力资源不足导致。
3. 模型推理速率对比
不同Deepseek模型的推理速度差异显著,r1满血版相对较慢,而蒸馏版,特别是7b版本速度最快。以下数据单位为字符/秒:
公司 | ds-r1 | ds-v3 | ds-32b | ds-7b |
---|---|---|---|---|
字节火山 | 51.4 | 20.8 | 53.9 | 114.0 |
硅基流动 | 注18.5 | 25.3 | 56.1 | – |
阿里云 | – | – | 38.7 | 50.5 |
腾讯云 | – | – | 21.6 | 42.0 |
注:硅基流动r1模型调用成功率仅为10%,数据参考性较差。
4. 模型调用失败率
测试中,各平台均存在调用失败的情况(超时、卡死、超速率等)。串行调用下,失败率统计如下:
公司 | 失败率 |
---|---|
字节火山 | 2.6% |
硅基流动 | 2.6% (注) |
阿里云 | 4.6% |
腾讯云 | 10.4% |
注:硅基流动r1满血版失败率过高(90%),未统计。
5. 最大并发调用数
为评估平台并发处理能力,进行了并发测试:
公司 | 平均最大并发数 | 最大并发数范围 |
---|---|---|
字节火山 | 38 | 32~42 |
硅基流动 | 5 | 4~6 |
阿里云 | 2 | 1~3 |
腾讯云 | 2 | 1~3 |
6. 模型效果对比及总结
由于Deepseek-r1满血版逻辑推理特性及幻觉问题,未进行全面效果对比。但测试结果表明,字节火山引擎在并发量、稳定性、速度方面均表现最佳,体现了强大的算力资源优势。 此次测评也印证了算力对AI应用的重要性,未来AI算力需求将持续增长。
所有测试数据和脚本已公开,可通过关注公众号JioNLP,回复获取。
联系作者
文章来源:JioNLP
作者微信:
作者简介:用数学和程序解构世界。