一文搞懂DeepSeek - 混合专家(MoE)
DeepSeek推出了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,总参数量达到6710亿,每个标记(token)激活的参数量为370亿。为...
与孙正义对话,Sam Altman正面回应DeepSeek:"OpenAI投入多少,AI智能就有多强"(附视频)
【导读】就在DeepSeek以低成本模型搅动全球AI格局之际,OpenAI CEO Sam Altman与软银创始人孙正义在东京进行了一场重磅对话。在昨天这场2月3日的对话中,Altm...
CCF的研讨会实录:解构DeepSeek-R1!
中国计算机学会青年计算机科学与技术论坛(CCF YOCSEF)近期组织了一场研讨会,邀请了复旦大学邱锡鹏教授、清华大学刘知远长聘副教授、清华大学翟季冬教授以...
一手实测:OpenAI Deep Research
在这个测试中,会发现 Open Research 取得了较为不错的成绩,在 pass@1 和 cons@64 的标准下,均取得了比以往更好的成绩。这里做一个信息的补充,有关 pass@1...
DeepSeek 成长史:追光者的技术远征 | 江湖录
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还...
OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录
今早8点,OpenAI东京分部进行了技术直播,发布了全新模型——Deep Research。与传统大模型不同的是,Deep Research能够像人类分析师一样,对复杂的任务进行逐步...
什么是AI的“智能涌现”,以及为什么理解它对创业者、从业者、普通人都价值巨大
1AI大模型存在智能涌现的现象。当规模超过约600亿参数时,它们将展现出前所未有的新能力,这就是我们所说的“智能涌现”。为什么会这样?业内仍在探讨,尚无定...
单需求实测o3mini与deepseek R1
我需要写一篇文章,主题是推理模式下的大语言模型,不再需要传统的提示词,传统提示词需要规范模型的行为模式,而自带推理的大模型则会自动搞定行为模式,但...
白话科普 | DeepSeek的蒸馏技术到底是什么?90%的人都没搞懂,但西方却抓着不放!
引言:AI领域的“炼金术”——模型蒸馏在人工智能领域,大型语言模型(LLM)无疑是近年来最耀眼的技术突破之一。然而,这些拥有数百亿甚至上千亿参数的庞然大物,...
为什么DeepSeek要把思考过程展示出来?
和别的AI大模型不一样,别的都是直接输出答案,而deepseek会把思考过程展示给用户。那么DeepSeek把思考过程展示出来,原因是什么呢? 提升用户信任度&nb...