智星云提供一站式大模型服务方案,支持Deepseek全系模型(R1满血版/V3、70B/32B)及量化/非量化部署。
提供模型调优、RAG知识库构建与实时联网搜索能力。
集成Agent智能体框架实现多任务处理,配备多级鉴权体系保障数据安全,满足企业级场景需求,适配不同规模用户提供精准智能服务。
DeepSeek云端私有化方案:

本报告针对两台4090服务器型号deepseek-R1的大语言模型在不同并发场景下(5 到 55 并发)的性能表现进行了系统测试。
测试指标涵盖整体耗时、吞吐量、每秒请求数(QPS)、平均响应延时、首 token 响应时间(TTFT)、每个输出 token 生成耗时(TPOT)、以及输入/输出 token 数量等。
综合各并发级别的测试数据,deepseek-R1 模型在低并发(5、15)下响应较快,但随着并发数提高(25至55),系统吞吐量虽不断提升,但平均延时及每token生成时间也随之增加,特别是在高并发下尾部延时明显上升,模型在高并发环境下能够稳定处理请求。
输出 token 数:大致在 650~1200 范围内
并发测试:共测试了 5、15、25、35、45、55 并发,无一例失败请求
下表为各并发场景下的核心指标(平均吞吐量单位:tokens/s;QPS:每秒请求数):
说明:从5、25、35、45、55并发测试中可见,随着并发数提高,系统整体吞吐量呈上升趋势,而平均延时及每个输出token的生成耗时也逐步增加;但15并发测试中TTFT明显偏高(平均3.025s),可能受测试样本较少或调度偶发延时影响。
免费DeepSeek R1-671B 体验:https://gpu.ai-galaxy.cn/largeModels
选择智星云,不仅是拥抱国内领先的分布式GPU算力平台,更是与3000+企业,1000家高校共同验证的AI转型全程陪跑专家。
从需求诊断到方案落地,7×24小时专家团队贴身护航,让您的每一分投入都转化为可量化的商业增长。