DeepSeek满血版云端私有化部署，支持知识库，仅2.5万/月！

AI资讯 8个月前 charles

14.9K 0 20

智星云提供一站式大模型服务方案，支持Deepseek全系模型（R1满血版/V3、70B/32B）及量化/非量化部署。

提供模型调优、RAG知识库构建与实时联网搜索能力。

集成Agent智能体框架实现多任务处理，配备多级鉴权体系保障数据安全，满足企业级场景需求，适配不同规模用户提供精准智能服务。

DeepSeek云端私有化方案：

DeepSeek云端私有化方案测试报告：

本报告针对两台4090服务器型号deepseek-R1的大语言模型在不同并发场景下（5 到 55 并发）的性能表现进行了系统测试。

测试指标涵盖整体耗时、吞吐量、每秒请求数（QPS）、平均响应延时、首 token 响应时间（TTFT）、每个输出 token 生成耗时（TPOT）、以及输入/输出 token 数量等。

所有数据均来自标准openqa数据集。

综合各并发级别的测试数据，deepseek-R1 模型在低并发（5、15）下响应较快，但随着并发数提高（25至55），系统吞吐量虽不断提升，但平均延时及每token生成时间也随之增加，特别是在高并发下尾部延时明显上升，模型在高并发环境下能够稳定处理请求。

并发与吞吐量以及输出token的关系图表：

吞吐量与并行

一、测试环境与配置

模型信息：deepseek-R1

超时设置：连接与读取超时均为120s

测试数据集：openqa

请求参数：

最大输出 token：2048

输入 token 数：约 22～28

输出 token 数：大致在 650～1200 范围内

并发测试：共测试了 5、15、25、35、45、55 并发，无一例失败请求

二、各并发级别数据概览

下表为各并发场景下的核心指标（平均吞吐量单位：tokens/s；QPS：每秒请求数）：

说明：从5、25、35、45、55并发测试中可见，随着并发数提高，系统整体吞吐量呈上升趋势，而平均延时及每个输出token的生成耗时也逐步增加；但15并发测试中TTFT明显偏高（平均3.025s），可能受测试样本较少或调度偶发延时影响。

三、关键性能指标

四、详细数据

5请求5并发

15请求15并发

25请求25并发

35请求35并发

45请求45并发

55请求55并发

免费DeepSeek R1-671B 体验：https://gpu.ai-galaxy.cn/largeModels

注：复制网址到浏览器打开

扫码添加微信对接

电话：400-021-0001

选择智星云，不仅是拥抱国内领先的分布式GPU算力平台，更是与3000+企业，1000家高校共同验证的AI转型全程陪跑专家。

从需求诊断到方案落地，7×24小时专家团队贴身护航，让您的每一分投入都转化为可量化的商业增长。

版权声明：charles 发表于 2025年3月5日 pm6:47。
转载请注明：DeepSeek满血版云端私有化部署，支持知识库，仅2.5万/月！ | AI工具大全&导航

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

7.4K 45

微软CEO纳德拉给出AI时代的关键答案：先有组织进化，才有技术突破（附视频）

charles

12.2K 35

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

7.7K 40

大模型基础设施异构计算硬件量化误差破局之道——从技术原理到实践优化

charles

7.5K 5

RAGFlow vs FastGPT，做RAG系统谁更牛逼

charles

7.3K 15

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

7.4K 40

DeepSeek满血版云端私有化部署，支持知识库，仅2.5万/月！

从预测风暴到设计分子：人工智能基础模型如何加速科学发现

大模型落地难点之输出的不确定性

相关文章

相关文章