你用的DeepSeek R1是真的还是假的?

 DeepSeek爆火,国人知识面突飞猛进,一下子从90%的某搜索引擎直接到国际领先水平,一下子大家觉得自己还在用大刀长矛,突然六代机一年2个型号飞起来的感觉,企业老板都是觉得你们IT应该部署一个DeepSeek来做自家的AI大模型。


昨天的文章:DeepSeek本地部署真的是企业的最佳选择吗?谈到了各种版本的DeepSeek的区别,后来有人说单位花了几万元部署了7B的版本还感觉很好。今天给大家看个图

你用的DeepSeek R1是真的还是假的?



你用的DeepSeek R1是真的还是假的?DeepSeek是有很多版本

现在是每家公司都觉得应该是自己要部署一套DeepSeek来打造自己的AI大模型,也有很多人是因为官网基本上瘫痪(从DeepSeek暴增流量谈网站稳定性)而选择了自己部署一套DeepSeek来使用,因为电脑性能问题,大多数选择了简单的蒸馏版,其实DeepSeek每个版本都是性能差别很大。很多云平台是以次充好和一些无良媒体骗用户本地部署模型。


DeepSeek R1 一起发布的还有用 R1 生成的推理数据蒸馏过的 6 个开源小模型,他们的模型名字里面也包含了 R1,但是和满血R1有很大的差别。满血版DeepSeek 最大的缺点是全参数的MoE模型太大了,所以出来简化版本,而蒸馏版只有SFT没有RL效果不佳。




你用的DeepSeek R1是真的还是假的?RL(强化学习)和SFT(监督微调)


 Deepseek  R1 之所以厉害是因为进行了 RL(强化学习)核心 也就是强化学习的训练,而了类似 DeepSeek-R1-Distill-Qwen-32B 这类模型是利用 R1 的数据在原来的模型基础上(比如 Qwen-32B)进行 SFT(监督微调)练出来的。没有经过 RL 强化学习的训练和较小的模型尺寸原因,模型能力是远远赶不上满血的 671B R1 模型的。


你用的DeepSeek R1是真的还是假的?模型的参数量


DeepSeek-R1的不同参数规模(如1.5B、7B、8B、14B、32B、70B、671B)等标识代表模型的参数量,主要体现在模型能力、资源需求和应用场景上。7B:70亿参数,中等规模模型,32B:320亿参数,高性能模型,70B:700亿参数,接近GPT-4级别的顶尖模型,这些参数规模直接影响模型的推理能力、资源需求和适用场景。基准测试显示,70B模型在数学(GSM8K得分63.0)、代码生成(HumanEval得分48.2)等任务中远超7B版本。


1.5B/7B/8B版本适用于简单使用,就是测试下情况,14B/32B版本是能够正常使用版本,能够完成要求不高的任务,70B版本的级别才是真正算是AI,能够接近ChatGPT的GPT-4能力,671B版本才是真正体现DeepSeek的能力,也就是大家说的满血版。


你用的DeepSeek R1是真的还是假的?DeepSeek的精度



  • 半精度(FP16) :降低浮点数精度以减少显存占用,但可能影响模型稳定性。
  • 4位/8位量化:通过压缩模型权重(如Q4_K_M技术),显存需求降至全精度的1/4-1/2,适合资源受限场景
  • 671B模型全精度需1342GB显存,4位量化后仅需336GB。降低精度是显著降低硬件门槛,使大模型可在消费级显卡上运行。但是真正发挥DeepSeek能力是需要全精度



你用的DeepSeek R1是真的还是假的?知识更新和优化


DeepSeek是用语料库训练出来的,有时间差距,数据不是最新,所以需要有即时搜索数据来补充强化,如果没有搜索强化,知识跟不上会有很多的问题,比如问特朗普会说还没有上台,正在竞选这些。


私有知识训练,如果仅仅是使用DeepSeek来做些知识分析,是没有必要自己部署的,直接用秘塔AI(https://metaso.cn/)就完全足够,无论是调用公有云的DeepSeek接口还是自己部署DeepSeek的目的都是为了训练自己的内部知识库,DeepSeek生成RAG(检索增强生成),利用DeepSeek具备强大的上下文理解和生成能力,能够有效利用检索到的信息生成自然语言响应,同时通过微调技术优化生成高质量的企业内部知识库。上传文档给DeepSeek使用是必须的,要能够分析图片、文档、PDF这些。


DeepSeek企业应该核心就是RAG,这些需要精通业务知识的行业专家和熟悉AI的技术专家的深度配合才能完成,我们在2024年下半年开始就跟行业领先律所一起打磨知识产权领域的AI应用,花费了很多时间精力,各种大模型之间进行调教。


你用的DeepSeek R1是真的还是假的?关于我


     15年互联网创业@产品开发运营、Python编程、技术团队管理、DevOps开发、服务器运维经验,擅长互联网产品开发运营、研发效能提升,专注于AI、大数据、工作流程智能化和企业数字化建设,欢迎加微信:telking-com 交流。


      如果您有计划开发小程序、商城、手机APP、管理系统、AI应用、出海跨境、浏览器插件等定制软件,欢迎联系我们团队。我们有丰富的程序开发经验,可以为您提供专业的技术支持和软件开发服务。 



点击关注"刚哥的创业思考" 

  

 

你用的DeepSeek R1是真的还是假的?

你用的DeepSeek R1是真的还是假的?



版权声明:charles 发表于 2025年2月13日 am10:29。
转载请注明:你用的DeepSeek R1是真的还是假的? | AI工具大全&导航

相关文章