一文搞懂DeepSeek - 混合专家(MoE)

DeepSeek推出了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,总参数量达到6710亿,每个标记(token)激活的参数量为370亿。为...

与孙正义对话,Sam Altman正面回应DeepSeek:"OpenAI投入多少,AI智能就有多强"(附视频)

【导读】就在DeepSeek以低成本模型搅动全球AI格局之际,OpenAI CEO Sam Altman与软银创始人孙正义在东京进行了一场重磅对话。在昨天这场2月3日的对话中,Altm...

CCF的研讨会实录:解构DeepSeek-R1!

中国计算机学会青年计算机科学与技术论坛(CCF YOCSEF)近期组织了一场研讨会,邀请了复旦大学邱锡鹏教授、清华大学刘知远长聘副教授、清华大学翟季冬教授以...

一手实测:OpenAI Deep Research

在这个测试中,会发现 Open Research 取得了较为不错的成绩,在 pass@1 和 cons@64 的标准下,均取得了比以往更好的成绩。这里做一个信息的补充,有关 pass@1...

DeepSeek 成长史:追光者的技术远征 | 江湖录

以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还...

OpenAI反击DeepSeek!刚发布新模型Deep research,刷新最高记录

今早8点,OpenAI东京分部进行了技术直播,发布了全新模型——Deep Research。与传统大模型不同的是,Deep Research能够像人类分析师一样,对复杂的任务进行逐步...

什么是AI的“智能涌现”,以及为什么理解它对创业者、从业者、普通人都价值巨大

1AI大模型存在智能涌现的现象。当规模超过约600亿参数时,它们将展现出前所未有的新能力,这就是我们所说的“智能涌现”。为什么会这样?业内仍在探讨,尚无定...

单需求实测o3mini与deepseek R1

我需要写一篇文章,主题是推理模式下的大语言模型,不再需要传统的提示词,传统提示词需要规范模型的行为模式,而自带推理的大模型则会自动搞定行为模式,但...

白话科普 | DeepSeek的蒸馏技术到底是什么?90%的人都没搞懂,但西方却抓着不放!

引言:AI领域的“炼金术”——模型蒸馏在人工智能领域,大型语言模型(LLM)无疑是近年来最耀眼的技术突破之一。然而,这些拥有数百亿甚至上千亿参数的庞然大物,...

为什么DeepSeek要把思考过程展示出来?

和别的AI大模型不一样,别的都是直接输出答案,而deepseek会把思考过程展示给用户。那么DeepSeek把思考过程展示出来,原因是什么呢? 提升用户信任度&nb...
1 416 417 418 419 420 452