DeepSeek 成长史:追光者的技术远征 | 江湖录

AI资讯 1个月前 charles
2.5K 0

以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。

—— DeepSeek 创始人梁文锋




这几天,DeepSeek 全球爆火,但由于这家公司过于低调,未有宣发,使得大众对这家极具潜力的科技企业知之甚少——无论是其创立背景、业务范围,还是产品布局。


在整理完所有材料,我便撰写了此篇 江湖录 : 

目前的 AI 玩家,是怎样的背景,在卷那些事儿,以及在招哪些人


本篇是江湖录的第二篇,也可能是有关 DeepSeek 的最全的历史过往。

本文所有 DeepSeek 相关图片,除非备注,均源自官方发布渠道及其应用程序截图。特别鸣谢「暗涌」发布的两篇对梁文锋先生的深度访谈,其中的真知灼见为本文提供了宝贵的研究素材。


去年此时,幻方量化的朋友找到我,问:“要不要在国内做大模型?”而我,只单纯的喝了半下午的咖啡。果然,人生还是看选择的

这里所提的幻方量化,便是 DeepSeek 的出资方,或者说母体。

DeepSeek 成长史:追光者的技术远征 | 江湖录

所谓量化,便是不由人力,而用算法来进行决策的投资机构。幻方量化的成立时间不算长,起步于 2015 年。到了 2021 年,时年六岁的幻方量化,其资产管理规模便已突破千亿,被誉为中国 “量化四大天王” 之一。

幻方的创始人梁文锋,也正是日后 DeepSeek 的创立者,是个“非主流”的 80 后金融领导者:他没有海外留学经历,也不是奥林匹克竞赛获奖者,毕业于浙江大学电子工程系人工智能专业,土生土长的技术专家,行事低调,每天“看论文,写代码,参与小组讨论”。

梁文锋的身上没有传统企业老板的习气,更像一位纯粹的 “技术极客”。多位业内人士和 DeepSeek 的研究员,给了梁文锋极高的评价:“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,同时有着“令人恐怖的学习能力”。

早在成立 DeepSeek 之前,幻方便已开始在 AI 行业进行了长远布局2023 年 5 月,梁文锋在接受暗涌采访时提到: “2020 年 OpenAI 发布 GPT3 后,人工智能发展的方向已经非常清晰,算力将成为关键要素;但即便 2021 年,我们投入建设萤火二号时,大部分人还是无法理解”。


基于这一判断,幻方开始构建起自己的算力基建。“从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。”

之后,《财经十一人》报道,“国内拥有超过 1 万枚 GPU 的企业不超过 5 家,而除几家头部大厂外,还包括一家名为幻方的量化基金公司”。而通常认为,1 万枚英伟达 A100 芯片是做自训大模型的算力门槛。

梁文锋在之前的采访中,还提到了一个很有趣的点:很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。


 

DeepSeek 初见

在 2023 年 5 月接受暗涌采访时,当被问及 “前不久,幻方发公告决定下场做大模型,一家量化基金为什么要做这样一件事?” 

梁文锋的回答掷地有声:我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。“


并非出于商业利益驱动,也非追逐市场风口,单单只是对 AGI 技术本身的探索渴望, 以及对 “最重要、最困难的事” 的执着追求,“深度求索” 这一名称在 2023年5月已被正式确认。2023年7月17日, “杭州深度求索人工智能基础技术研究有限公司” 注册成立。


2023年11月2日,DeepSeek 交来了首篇答卷:DeepSeek Coder 代码大模型开源发布。这个模型包括 1B,7B,33B 多种尺寸,开源内容包含 Base 模型和指令调优模型。


DeepSeek 成长史:追光者的技术远征 | 江湖录


在当时,在开源模型中,Meta 的 CodeLlama 是业内标杆。而 DeepSeek Coder 一经发布,比起 CodeLlama,便展示出多方位领先的架势:在代码生成上,HumanEval 领先 9.3%、MBPP 领先 10.8,DS-1000 领先 5.9%。


要知道,DeepSeek Coder 是 7B 模型,而 CodeLlama 却是 34B。另外,经过指令调优后的 DeepSeek Coder 模型更是全面超越了 GPT3.5-Turbo。


DeepSeek 成长史:追光者的技术远征 | 江湖录


不仅在代码生成上可圈可点,DeepSeek Coder 也在数学和推理上秀了一波肌肉。 


DeepSeek 成长史:追光者的技术远征 | 江湖录


3日后,也就是 2023 年 11 月 5 日,DeepSeek 通过其微信公众号,连续发布了大量招聘内容,岗位包括:AGI 大模型实习生、数据百晓生、数据架构人才、高级数据采集工程师、深度学习研发工程师等招聘信息,开始积极扩充团队规模。


正如梁文锋所言,DeepSeek 在人才招聘上 “必卡的条件” 是 “热爱,扎实的基础能力”, 并且强调 “创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。”



模型频发,践行开源

在 DeepSeek Coder 一鸣惊人之后,DeepSeek 将目光投向主战场:通用大模型。

2023年11月29日,DeepSeek 发布了其首款通用大语言模型 DeepSeek LLM 67B。这款模型对标的是 Meta 的同级别模型 LLaMA2 70B,并在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。

DeepSeek 成长史:追光者的技术远征 | 江湖录

DeepSeek LLM 67B 同样选择了开源路线,并支持商用。为了进一步彰显其开源的诚意和决心,DeepSeek 史无前例地同步开源了 7B 和 67B 两种不同规模的模型,甚至将模型训练过程中产生的 9 个 checkpoints 也一并公开,供研究人员下载使用。这种近乎 “倾囊相授” 的操作,在整个开源社区都极为罕见。

为了更全面、更客观地评估 DeepSeek LLM 67B 的真实能力,DeepSeek 的研究团队还精心设计了一系列 “新题” 进行 “压力测试”,这些题目涵盖了匈牙利高中数学考试题、Google 指令跟随评测集、LeetCode 周赛题等高难度、高区分度的测试。测试结果令人振奋,DeepSeek LLM 67B 在样本外泛化能力方面表现出了惊人的潜力,其综合性能甚至直逼当时最先进的 GPT-4 模型。

DeepSeek 成长史:追光者的技术远征 | 江湖录

2023年12月18日,DeepSeek 开源了文生 3D 模型 DreamCraft3D:可从一句话生成高质量的三维模型,实现了 AIGC 从 2D 平面到 3D 立体空间的跨越。比如,用户输入:“奔跑在树林中,搞笑的猪头和孙悟空身体的混合形像”,DreamCraft3D 便可以输出高质量的内容:

DeepSeek 成长史:追光者的技术远征 | 江湖录

从原理上来说,这个模型先完成了文生图,然后再根据 2D 概念图,脑补出整体的几何结构:

DeepSeek 成长史:追光者的技术远征 | 江湖录

在之后的主观评比中,相较于之前的生成方法,超过 90% 的用户表示 DreamCraft3D 的生成质量更具优势。

DeepSeek 成长史:追光者的技术远征 | 江湖录

生成质量用户主观评价

2024年1月7日,DeepSeek 发布了 DeepSeek LLM 67B 技术报告。这份报告有 40+ 页,内容包含了 DeepSeek LLM 67B 的多项细节,包括自建 Scaling Laws、完整的模型对齐实践细节、以及全方位的 AGI 能力评估体系等等。

报告地址:https://arxiv.org/abs/2401.02954

DeepSeek 成长史:追光者的技术远征 | 江湖录

2024年1月11日,DeepSeek 开源了国内首个 MoE(混合专家架构)大模型 DeepSeekMoE:全新架构,支持中英,免费商用。MoE 架构在当时被普遍认为是 OpenAI GPT-4 性能突破的关键所在,而 DeepSeek 自研的 MoE 架构,在 2B、16B、145B 等多个尺度上均领先,同时其计算成本也非常值得称道。

DeepSeek 成长史:追光者的技术远征 | 江湖录

2024年1月25日,DeepSeek 发布了 DeepSeek Coder 技术报告。这份报告对其训练数据、训练方法、以及模型效果进行了全面的技术剖析。在这份报告中,我们可以发现其首次构建了仓库级代码数据,并用拓扑排序解析文件之间依赖,显著增强了长距离跨文件的理解能力。而在训练方法上,增加了Fill-In-Middle方法,大幅提升了代码补全的能力。

报告地址:https://arxiv.org/abs/2401.14196


DeepSeek 成长史:追光者的技术远征 | 江湖录

 

2024年1月30日,DeepSeek 开放平台正式上线,DeepSeek 大模型 API 服务启动测试。注册即送 1000 万 token,接口兼容 OpenAI API 接口,有 Chat/Coder 双模型可用。此时,DeepSeek 开始在技术研发之外,开始探寻技术服务商的道路。

2024年2月5日,DeepSeek 发布了又一款垂直领域模型——数学推理模型 DeepSeekMath。这款仅有 7B 参数的模型,却在数学推理能力上直逼 GPT-4,在权威的 MATH 基准榜单上,力压群雄,超越了一众参数规模在 30B-70B 之间的开源模型。DeepSeekMath 的问世,充分展现了 DeepSeek 在垂直领域模型研发上的技术实力和前瞻布局。

DeepSeek 成长史:追光者的技术远征 | 江湖录