DeepSeek 成长史：追光者的技术远征 | 江湖录

AI资讯 1年前 (2025) charles

10.4K 0 5

以后硬核创新会越来越多。现在可能还不容易被理解，是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就，群体性想法就会改变。我们只是还需要一堆事实和一个过程。

—— DeepSeek 创始人梁文锋

这几天，DeepSeek 全球爆火，但由于这家公司过于低调，未有宣发，使得大众对这家极具潜力的科技企业知之甚少——无论是其创立背景、业务范围，还是产品布局。

在整理完所有材料后，我便撰写了此篇 江湖录 ：　

目前的 AI 玩家，是怎样的背景，在卷那些事儿，以及在招哪些人

本篇是江湖录的第二篇，也可能是有关 DeepSeek 的最全的历史过往。

本文所有 DeepSeek 相关图片，除非备注，均源自官方发布渠道及其应用程序截图。特别鸣谢「暗涌」发布的两篇对梁文锋先生的深度访谈，其中的真知灼见为本文提供了宝贵的研究素材。

去年此时，幻方量化的朋友找到我，问：“要不要在国内做大模型？”而我，只单纯的喝了半下午的咖啡。果然，人生还是看选择的。

这里所提的幻方量化，便是 DeepSeek 的出资方，或者说母体。

所谓量化，便是不由人力，而用算法来进行决策的投资机构。幻方量化的成立时间不算长，起步于 2015 年。到了 2021 年，时年六岁的幻方量化，其资产管理规模便已突破千亿，被誉为中国 “量化四大天王” 之一。

幻方的创始人梁文锋，也正是日后 DeepSeek 的创立者，是个“非主流”的 80 后金融领导者：他没有海外留学经历，也不是奥林匹克竞赛获奖者，毕业于浙江大学电子工程系人工智能专业，土生土长的技术专家，行事低调，每天“看论文，写代码，参与小组讨论”。

梁文锋的身上没有传统企业老板的习气，更像一位纯粹的 “技术极客”。多位业内人士和 DeepSeek 的研究员，给了梁文锋极高的评价：“兼具强大的infra工程能力和模型研究能力，又能调动资源”、“既可以从高处做精准判断，又可以在细节上强过一线研究员”的人，同时有着“令人恐怖的学习能力”。

早在成立 DeepSeek 之前，幻方便已开始在 AI 行业进行了长远布局。2023 年 5 月，梁文锋在接受暗涌采访时提到： “2020 年 OpenAI 发布 GPT3 后，人工智能发展的方向已经非常清晰，算力将成为关键要素；但即便 2021 年，我们投入建设萤火二号时，大部分人还是无法理解”。

基于这一判断，幻方开始构建起自己的算力基建。“从最早的1张卡，到2015年的100张卡、2019年的1000张卡，再到一万张，这个过程是逐步发生的。几百张卡之前，我们托管在IDC，规模再变大时，托管就没法满足要求了，就开始自建机房。”

之后，《财经十一人》报道，“国内拥有超过 1 万枚 GPU 的企业不超过 5 家，而除几家头部大厂外，还包括一家名为幻方的量化基金公司”。而通常认为，1 万枚英伟达 A100 芯片是做自训大模型的算力门槛。

梁文锋在之前的采访中，还提到了一个很有趣的点：很多人会以为这里边有一个不为人知的商业逻辑，但其实，主要是好奇心驱动。

DeepSeek 初见

在 2023 年 5 月接受暗涌采访时，当被问及 “前不久，幻方发公告决定下场做大模型，一家量化基金为什么要做这样一件事？”

梁文锋的回答掷地有声：“我们做大模型，其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里，很多人是做人工智能的。当时我们尝试了很多场景，最终切入了足够复杂的金融，而通用人工智能可能是下一个最难的事之一，所以对我们来说，这是一个怎么做的问题，而不是为什么做的问题。“

并非出于商业利益驱动，也非追逐市场风口，单单只是对 AGI 技术本身的探索渴望，以及对 “最重要、最困难的事” 的执着追求，“深度求索” 这一名称在 2023年5月已被正式确认。2023年7月17日， “杭州深度求索人工智能基础技术研究有限公司” 注册成立。

2023年11月2日，DeepSeek 交来了首篇答卷：DeepSeek Coder 代码大模型开源发布。这个模型包括 1B，7B，33B 多种尺寸，开源内容包含 Base 模型和指令调优模型。

在当时，在开源模型中，Meta 的 CodeLlama 是业内标杆。而 DeepSeek Coder 一经发布，比起 CodeLlama，便展示出多方位领先的架势：在代码生成上，HumanEval 领先 9.3%、MBPP 领先 10.8，DS-1000 领先 5.9%。

要知道，DeepSeek Coder 是 7B 模型，而 CodeLlama 却是 34B。另外，经过指令调优后的 DeepSeek Coder 模型更是全面超越了 GPT3.5-Turbo。

不仅在代码生成上可圈可点，DeepSeek Coder 也在数学和推理上秀了一波肌肉。

3日后，也就是 2023 年 11 月 5 日，DeepSeek 通过其微信公众号，连续发布了大量招聘内容，岗位包括：AGI 大模型实习生、数据百晓生、数据架构人才、高级数据采集工程师、深度学习研发工程师等招聘信息，开始积极扩充团队规模。

正如梁文锋所言，DeepSeek 在人才招聘上 “必卡的条件” 是 “热爱，扎实的基础能力”，并且强调 “创新需要尽可能少的干预和管理，让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的，不是刻意安排的，更不是教出来的。”

模型频发，践行开源

在 DeepSeek Coder 一鸣惊人之后，DeepSeek 将目光投向主战场：通用大模型。

2023年11月29日，DeepSeek 发布了其首款通用大语言模型 DeepSeek LLM 67B。这款模型对标的是 Meta 的同级别模型 LLaMA2 70B，并在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力（如：HumanEval、MATH、CEval、CMMLU）。

DeepSeek LLM 67B 同样选择了开源路线，并支持商用。为了进一步彰显其开源的诚意和决心，DeepSeek 史无前例地同步开源了 7B 和 67B 两种不同规模的模型，甚至将模型训练过程中产生的 9 个 checkpoints 也一并公开，供研究人员下载使用。这种近乎 “倾囊相授” 的操作，在整个开源社区都极为罕见。

为了更全面、更客观地评估 DeepSeek LLM 67B 的真实能力，DeepSeek 的研究团队还精心设计了一系列 “新题” 进行 “压力测试”，这些题目涵盖了匈牙利高中数学考试题、Google 指令跟随评测集、LeetCode 周赛题等高难度、高区分度的测试。测试结果令人振奋，DeepSeek LLM 67B 在样本外泛化能力方面表现出了惊人的潜力，其综合性能甚至直逼当时最先进的 GPT-4 模型。

2023年12月18日，DeepSeek 开源了文生 3D 模型 DreamCraft3D：可从一句话生成高质量的三维模型，实现了 AIGC 从 2D 平面到 3D 立体空间的跨越。比如，用户输入：“奔跑在树林中，搞笑的猪头和孙悟空身体的混合形像”，DreamCraft3D 便可以输出高质量的内容：

从原理上来说，这个模型先完成了文生图，然后再根据 2D 概念图，脑补出整体的几何结构：

在之后的主观评比中，相较于之前的生成方法，超过 90% 的用户表示 DreamCraft3D 的生成质量更具优势。

生成质量用户主观评价

2024年1月7日，DeepSeek 发布了 DeepSeek LLM 67B 技术报告。这份报告有 40+ 页，内容包含了 DeepSeek LLM 67B 的多项细节，包括自建 Scaling Laws、完整的模型对齐实践细节、以及全方位的 AGI 能力评估体系等等。

报告地址：https://arxiv.org/abs/2401.02954

2024年1月11日，DeepSeek 开源了国内首个 MoE（混合专家架构）大模型 DeepSeekMoE：全新架构，支持中英，免费商用。MoE 架构在当时被普遍认为是 OpenAI GPT-4 性能突破的关键所在，而 DeepSeek 自研的 MoE 架构，在 2B、16B、145B 等多个尺度上均领先，同时其计算成本也非常值得称道。

2024年1月25日，DeepSeek 发布了 DeepSeek Coder 技术报告。这份报告对其训练数据、训练方法、以及模型效果进行了全面的技术剖析。在这份报告中，我们可以发现其首次构建了仓库级代码数据，并用拓扑排序解析文件之间依赖，显著增强了长距离跨文件的理解能力。而在训练方法上，增加了Fill-In-Middle方法，大幅提升了代码补全的能力。

报告地址：https://arxiv.org/abs/2401.14196

2024年1月30日，DeepSeek 开放平台正式上线，DeepSeek 大模型 API 服务启动测试。注册即送 1000 万 token，接口兼容 OpenAI API 接口，有 Chat/Coder 双模型可用。此时，DeepSeek 开始在技术研发之外，开始探寻技术服务商的道路。

2024年2月5日，DeepSeek 发布了又一款垂直领域模型——数学推理模型 DeepSeekMath。这款仅有 7B 参数的模型，却在数学推理能力上直逼 GPT-4，在权威的 MATH 基准榜单上，力压群雄，超越了一众参数规模在 30B-70B 之间的开源模型。DeepSeekMath 的问世，充分展现了 DeepSeek 在垂直领域模型研发上的技术实力和前瞻布局。

2024年2月28日，为进一步扫除开发者使用 DeepSeek 开源模型的顾虑，DeepSeek 发布了开源政策 FAQ，对模型开源许可、商业使用限制等常见问题进行了详细解答，以更透明、更开放的姿态拥抱开源：

2024年3月11日，DeepSeek 开源发布了多模态大模型 DeepSeek-VL。这是 DeepSeek 在多模态 AI 技术上的初步尝试，尺寸为 7B 与1.3B，模型和技术论文同步开源。

2024年3月20日，幻方 AI & DeepSeek 再次受邀参加 NVIDIA GTC 2024 大会，创始人梁文锋发表了题为《和而不同：大语言模型价值观对齐解耦化》的技术主题演讲。探讨了如”单一价值观的大模型与多元社会文化之间的冲突“，“大模型价值观对齐解耦化”，“解耦化价值观对齐的多维度挑战” 等问题。展现了 DeepSeek 在技术研发之外，对 AI 发展的人文关怀和社会责任的思考。

2024年3月，DeepSeek API 正式推出付费服务，彻底引爆了中国大模型市场的价格战的序幕：每百万输入 Tokens 1 元，每百万输出 Tokens 2 元。

2024年，DeepSeek 顺利通过中国大模型备案，为其 API 服务的全面开放扫清了政策障碍。　

2024年5月，DeepSeek-V2 通用 MoE 大模型的开源发布，价格战正式打响。 DeepSeek-V2 使用了 MLA（多头潜在注意力机制），将模型的显存占用率降低至传统 MHA 的 5%-13%，同时，也独辟蹊径地研发了 DeepSeek MoE Sparse 稀疏结构，将模型的计算量大大压缩。凭借于此，而这个模型保持着以「1元/百万输入，2元/百万输出」的 API 价格。

DeepSeek 的影响力非常大。对此，SemiAnalysis 首席分析师认为，DeepSeek V2论文“可能是今年最好的一篇”。同样的，OpenAI 前员工 Andrew Carr 则认为论文“充满惊人智慧”，并将其训练设置应用于自己的模型。

需知：这是一个对标 GPT-4-Turbo 的模型，而 API 价格只有后者的 1/70

2024年6月17日，DeepSeek 再度发力，开源发布了 DeepSeek Coder V2 代码大模型，并宣称其代码能力超越了当时最先进的闭源模型 GPT-4-Turbo。DeepSeek Coder V2 延续了 DeepSeek 一贯的开源策略，模型、代码、论文全部开源，并提供了 236B 和 16B 两种版本。DeepSeek Coder V2 的 API 服务也同步上线，价格依旧是「1元/百万输入，2元/百万输出」。

2024年6月21日，DeepSeek Coder 支持代码在线执行。在同一天，先是 Claude3.5 Sonnet 发布，并上新 Artifacts 功能，自动生成代码并直接在浏览器上运行。同一天的，DeepSeek 官网的代码助手也上线了同样的功能：生成代码，一键运行。

回顾一下这段时间的大事记：

持续突破，全球瞩目

2024 年 5 月，DeepSeek 通过 MoE 开源模型 DeepSeek V2，一战成名：对标 GPT-4-Turbo 的性能，但价格只要 1块钱/百万输入，这是 GPT-4-Turbo 的 1/70。那时，DeepSeek 成了业内知名的“价格屠夫”，进而，智谱、字节、阿里...等主流玩家迅速跟进，纷纷降价。也是那时，适逢又一轮 GPT 封号潮，大批 AI 应用，开始初尝国内模型。

在 2024 年七月，DeepSeek 创始人梁文锋，再次接受暗涌的报道，对于这次价格战进行了正面回应：“非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事，然后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

可见，与众多牌桌选手掏钱做补贴不同的是，DeepSeek 在这个定价下，是有利润的。

有人会说：降价很像在抢用户，互联网时代的价格战通常如此

对此，梁文锋也回应到：“抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论 API，还是 AI，都应该是普惠的、人人可以用得起的东西。”

那么，故事也就由着梁文锋的理想主义，继续展开。

2024年7月4日，DeepSeek API 上线128K上下文价格不变。模型的推理成本，与上下文长度密切相关。所以很多模型，对于这个长度，限制严苛：初版 GPT-3.5 只有 4k 的上下文。

而此时，DeepSeek 在保持价格不变的前提下（每百万输入 Tokens 1 元，每百万输出 Tokens 2 元），将上下文长度，从之前的 32k 提升到了 128k。

2024年7月10日，全球首届 AI 奥数竞赛（AIMO）结果揭晓，DeepSeekMath 模型成为了 Top 团队的共同选择，获奖的 Top4 团队不约而同地选择了 DeepSeekMath-7B 作为其参赛模型的基础，并在竞赛中取得了令人瞩目的成绩。

2024年7月18日，在 “全球大模型竞技场”（Chatbot Arena）榜单上，DeepSeek-V2 荣登开源模型榜首，超越了 Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B 等一众明星模型，成为开源大模型的新标杆。

2024年7月，DeepSeek 持续广纳贤才，面向全球招募 AI 算法、AI Infra、AI Tutor、AI 产品等多个方向的顶尖人才，为未来的技术创新和产品发展储备力量。

2024年7月26日，DeepSeek API 迎来重要升级，全面支持续写、FIM（Fill-in-the-Middle）补全、Function Calling、JSON Output 等一系列高级功能。其中的 FIM 功能非常有趣，即：用户给出开头和结尾，大模型来填补中间的，非常适合编程的过程中，填充准确函数代码。以撰写斐波那契数列为例：

2024年8月2日，DeepSeek 创新性地引入了硬盘缓存技术，使得 API 价格斩向脚踝。之前 API 价格，每百万 token 只需 1 元。而现在，一旦命中缓存，API 费用直接降至 0.1 元。

这个功能，在连续对话，以及批量处理任务时，非常实用。

2024年8月16日，DeepSeek 开源发布了其数学定理证明模型 DeepSeek-Prover-V1.5，这款模型在高中和大学数学定理证明测试中，均超越了多款知名的开源模型。

2024年9月6日，DeepSeek 开源发布了 DeepSeek-V2.5 融合模型。之前，DeepSeek 主要提供的是款模型：Chat 模型聚焦通用对话能力，Code 模型聚焦代码处理能力。而这次，两款模型合二为一，升级成了 DeepSeek-V2.5，更好的对齐了人类偏好，并还在写作任务、指令跟随等方面实现了显著提升。

2024年9月18日，在 LMSYS 最新榜单上，DeepSeek-V2.5 再次上榜，并领跑国内模型，在多个单项能力上，也都刷新了国内模型的最好成绩。

2024年11月20日，DeepSeek 在官网上线了 DeepSeek-R1-Lite，这是一款推理模型，媲美 o1-preview，也为之后 V3 的后训练，提供了足量的合成数据。

2024年12月10日，DeepSeek V2 系列迎来收官之作——DeepSeek-V2.5-1210 最终微调版发布。该版本通过后训练，全面提升了包括数学、代码、写作、角色扮演等在内的多方能力。

DeepSeek 的网页 APP 也随着此版本的到来，开放了联网搜索功能。

2024年12月13日，DeepSeek 在多模态领域再次发力，开源发布了多模态大模型 DeepSeek-VL2。DeepSeek-VL2 采用了 MoE 架构，视觉能力得到了显著提升，有 3B、16B 和 27B 三种尺寸，在各项指标上极具优势。

2024年12月26日，DeepSeek-V3 开源发布：训练成本估算只有 550 万美金。DeepSeek-V3 在性能上全面对标海外领军闭源模型，生成速度也大幅提升。

API 服务定价进行了调整，但同时为新模型设置了长达 45 天的优惠体验期。

这里有一份来自「赛博禅心」的详实解读：DeepSeek-V3 是怎么训练的｜深度拆解

2025年1月15日，DeepSeek 官方 App 正式发布，并在 iOS/Android 各大应用市场全面上线。

2025年1月20日，临近春节，DeepSeek-R1 推理模型正式发布并开源。DeepSeek-R1 在性能上全面对齐 OpenAI o1 正式版，并开放了思维链输出功能。与此同时，DeepSeek 还宣布将模型开源 License 统一变更为 MIT 许可证，并明确用户协议允许 “模型蒸馏”，进一步拥抱开源，促进技术共享。

当日，「赛博禅心」便提供了一份详实解读：DeepSeek-R1 是怎么训练的｜深度拆解

后面，这个模型大火，开创了时代：

DeepSeek 完全指南：这到底是怎样的存在？

于是，截止到了 2025年1月27日，DeepSeek App 成功超越 ChatGPT，登顶美国 iOS 应用商店免费应用下载榜首，成为了现象级的 AI 应用。　

2025年1月27日，除夕凌晨1点，DeepSeek Janus-Pro 开源发布。这是一个多模态模型，名称来源于古罗马神话中的双面神“雅努斯”（Janus）：它同时面向过去与未来。这也代表了模型的两种能力——既要进行视觉理解，又要进行图像生成，并在多个排行中霸榜。

DeepSeek 的爆火，旋即引发了全球科技震动，甚至直接导致了 NVIDIA 股价暴跌 18%，全球科技股市市值蒸发了约 1 万亿美元。 华尔街和科技媒体纷纷惊呼，DeepSeek 的崛起，正在颠覆全球 AI 产业格局，对美国科技巨头构成了前所未有的挑战。

除夕之夜，美股上演了一出中国红

DeepSeek 的成功，也引发了国际社会对中国 AI 技术创新能力的高度关注和热烈讨论。美国总统特朗普罕见地公开赞扬 DeepSeek 的崛起是 “积极的”，并认为这是一个给美国敲响的 “警钟”。微软 CEO Satya Nadella 和 OpenAI CEO Sam Altman 也对 DeepSeek 表示赞赏，称其技术 “非常令人印象深刻”。

当然，我们也要知道，他们的赞扬一方面是对 DeepSeek 实力的认可，另一方面则是各有心思磨刀霍霍，比如 Anthropic 一遍认可着 DeepSeek 的成绩，一边号召美国政府加强对华芯片管制。

Anthropic CEO 发万字檄文：DeepSeek 崛起，白宫应加码管制