Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

AI资讯 13小时前 charles
140 0

很多小伙伴说,Kimi最近一段时间没有声音:似乎突然不卷了,其它AI厂商你追我赶的一直发布新产品,而Kimi迟迟没有动静...

但其实Kimi这段时间一直在深耕技术,在HuggingFace上很活跃!

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
huggingface上的Kimi仓库

而就在前几天,悄咪咪地放出了一个“大招”—— Kimi-Researcher (深度研究)

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
Kimi官网

内测申请通过后就能看到上面的界面~我们也第一时间拿到了内测资格,深度体验了一番。相比其它的GPT、Claude、Gemini等等DeepResearch功能来说,我觉得本次的更新主要有以下几个特点:

  • 内容丰富度和准确性有很大提升
  • 逻辑性很强
  • 可视化非常不错,阅读体验拉满

为什么能做到这些?

用官方的话来说就是:模型即 Agent!

它是基于端到端自主强化学习技术训练的新一代 Agent 模型,专为深度研究任务而生。

所有任务,它都会生成一份万字、可溯源的研究报告和一个可视化的动态网页。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
图中都是我测的case,👇🏻会给大家一一演示

这次Kimi搞的,到底是个啥?

再跟小伙伴们简单介绍下何谓「专为深度研究任务而生的 Agent 产品」

我们先来做个类比,帮你理解它的段位:

  • 传统搜索:像个图书管理员。你问他问题,他扔给你一堆可能相关的书(网页链接),让你自己一本本翻。

  • 普通AI大模型:像个读书快的学霸。你给他一堆书,他能帮你快速读完并总结个摘要。但他看的书,还是得你先找给他。

而 Kimi-Researcher呢?

像一个自带顶级图书馆和完整研究团队的金牌首席研究员。你只需要提出一个研究课题,他就会自己去规划课题、查资料(平均搜索200多个网址)、深度研读筛选信息(只用最高质量的3.2%)、分析对比、查缺补漏、最后直接给你交付一份逻辑严密、引经据典的深度研究报告,甚至还附带一个可交互的可视化简报!

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
长安的荔枝停播事件分析,直接给出了很多结论,看下面case

官方数据显示,Kimi-Researcher 为了回答一个问题,平均要进行23步推理,规划74个搜索关键词,最终生成的报告平均长达上万字,并引用26个高质量信源。所有引用都内嵌在正文里,点击就能溯源,以此来保证了报告的专业性和严谨性。

在专为AI设计的“高考”——高难度benchmark“HLE”(也被称为人类最后一次考试)中,Kimi-Researcher的成绩甚至超过了Claude 4 Opus和Gemini 2.5 Pro,达到了全球顶尖水平。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

同时在红杉中国发布的 xbench 基准测试中 Kimi-Researcher也取得了不错的成绩,领先其他模型。

这,就是底气。

光说不练假把式,上强度!

吹得再牛,不如实际拉出来遛遛。

大家也都不想看榜单数据,毕竟实际体感最重要,

我们特意挑选了几个最近全网热议的话题,用它们来给Kimi-Researcher上点强度,看看它到底是不是“真香”!

Case 1: 河北高考分数线创历史新高,考生的出路在哪里?

这两天高考成绩陆续出来了,“河北高考分数线创历史新高”的这一消息刷屏了。

作为一名曾经的河北考生,我很好奇这背后的原因到底是什么。这个问题比较复杂,正好拿来考验Kimi。

Prompt: 帮我分析一下河北省2025年高考分数线创历史新高的原因

Kimi-Researcher的表现:

可以看到,我给输入了一句非常短的提问,发送给Kimi后,它不会直接去进行「搜索」操作,而是会进行反问,跟用户对齐信息,针对「问题」本身进行反问,确认跟用户的预期一致。

比如追问用户希望重点了解哪些方面,同时列举出来这些影响因素,让用户选择,用户可以按需选择。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

然后开始搜索和梳理:通过观察可以发现他首先进行的是基础信息的搜索和梳理,也就是对整体信息进行了把控(2025年分数线变化)。而后开始深入分析导致这一结果的多方面原因(报考人数、试题难度、评卷标准、高考改革等)。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

而在这个过程中,我发现了Kimi-Researcher这个Agent的最基础的特性——「反思」,在遇到问题之后,它会自动纠错,自行反思,考虑多样因素,再结合「规划」能力去进一步的搜索和查询。

在这个过程中它会使用search和BrowserUse来不断地获取信息,调用工具等等

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
规划+反思+执行

等待所有搜索和梳理结束后,最终生成一份详实的万字报告,所有引用都内嵌在正文中,点击即可跳转,并高亮原文,便于验证与追溯

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
万字详细报告

而且,它还会给我们生成一份精美的可视化报告。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

可以看到,他首先输出了对分数线创新高的概括,而后从考生人数与招生计划、试题难度与评卷标准、新高考改革影响、复读生比例、甚至社会升学观念等多个角度,全面剖析了分数线暴涨的复杂成因。

最值得关注的其实就是最终的结论,

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

这里也祝各位考生心想事成,皆有所愿。

case🔗 https://kimi.moonshot.cn/preview/d1e0giep4uoecvdfhfvg?blockId=108

Case 2: 解剖顶流“LABUBU”,它凭啥能火遍全球?

要说潮玩圈最近谁最火?非LABUBU莫属。这个尖牙歪嘴的小精灵是怎么从一个绘本角色,变成让无数人疯狂的潮流符号的?我直接把这个课题抛给了Kimi。

Prompt: 请撰写一份关于潮玩IP‘LABUBU’的深度研究报告。报告需追溯其从诞生到成为全球潮流符号的全过程,并创建一个关键发展节点的时间轴。请重点分析其母公司泡泡玛特的商业策略、与艺术家龙家升的合作模式,以及其在社交媒体上的营销手法。最后,请将其与其它知名潮玩IP(如Molly、Bearbrick)进行对比,分析其成功的可复制性和面临的潜在市场风险。

它像一个真正的分析师一样,开始自主规划任务、全网搜集资料、进行深度分析。十几分钟后,一份近2万字的深度报告和一份精美的可视化网页就出炉了。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
很长,可能画质会被压缩,大家可以看链接原文感受一下

这已经不是在做“搜索”,而是在做“商学院级别的案例分析”。

对于需要做市场研究、竞品分析的同学来说,这效率简直是“外挂”级别的。

从艺术家创作、到与泡泡玛特合作、再到关键联名和营销节点,整理得明明白白。

分析的深度和信源都很广,从商业模式、IP运营、社交媒体营销等多个维度分析了LABUBU成功的深层原因。

case🔗 https://kimi.moonshot.cn/preview/d1e0n1hic4udgjkblghg?blockId=10

Case 3: 化身历史课教师,Kimi能上好“爱国教育课”吗?

今年是抗日战争胜利80周年,我们也都知道9月3号要举行盛大仪式,

那么面对这样严肃宏大的历史题材,Kimi能否胜任一个“历史课教师”的角色,让我们“以史为鉴”?

Prompt: 请为一堂面向高中生的历史公开课,设计一份关于‘中国人民抗日战争暨世界反法西斯战争’的教学材料。材料需包含:1. 一条清晰的、从1931年到1945年的战争重大事件时间轴。2. 一张结构化的思维导图,阐明这场战争的国际背景、东方主战场地位及其历史意义。3. 为纪念活动撰写一篇主题演讲稿,回顾历史、缅怀先烈、展望和平。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

我们可以看到,我们的需求点Kimi完成的都很好,

  • 一条清晰的时间轴
  • 一张结构化思维导图
  • 还有我们的演讲稿

教学材料结构完整,逻辑清晰,从时间轴到思维导图,将复杂的历史脉络梳理得井井有条。

撰写的演讲稿情感真挚、文字有力,完全符合该场合的严肃氛围。

case🔗 https://kimi.moonshot.cn/preview/d1e0nvf37oq3d4sdef70?blockId=108

Case 4: 给“劳模”雷军立小传,AI能写出新意吗?

雷军和小米的故事大家耳熟能详,特别是小米汽车发布后,更是全网焦点。要为这样一位知名人物立小传,挑战不在于找不到资料,而在于能否超越信息的堆砌,写出新意。

Prompt: 请为雷军撰写一份人物小传。报告应客观、平衡,并引用公开的采访、演讲和权威媒体报道作为信源。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
直接把雷同志扒了个底掉

这里其实还有一个idea,就是可以直接给一些人做背调,只要在互联网上留下过一些痕迹,就能查得到,感兴趣的朋友可以试试,说不定Kimi会给你惊喜~

case🔗 https://kimi.moonshot.cn/preview/d1e0p9s7fff5bk4r9c40?blockId=32

Case 5: 《长安的荔枝》停播事件

最近马伯庸的《长安的荔枝》改编成的同名电视剧也频繁上热搜,从最开始的重大期待,好评如潮一直到之后的拉跨,甚至最终还闹出了停播事件,我就想让Kimi帮我分析分析是怎么个情况。

帮我详细分析<长安的荔枝停播事件>的用户舆论:

  • 汇总社交媒体上用户对<长安的荔枝电视剧>的主要正面评价(喜欢的点)和负面吐槽(不满之处)。
  • 统计正负评价的大致占比,分析用户整体满意度倾向。
  • 引用几条具有代表性的用户评论(注明出处,如微博或论坛)。
  • 根据反馈给出对<长安的荔枝>剧组改进的建议。

之后同样经历了反问用户问题进行对齐之后开始工作:

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

还从豆瓣上找到了很多优质评论:

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

最终生成了一篇万字报告和图文精美的可视化报告:

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
为什么会有停播事件
Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
停播事件的舆论
Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
各方用户观点

最后还按照我们prompt中的要求给出了剧组建议..

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
贴心的建议

case🔗 https://kimi.moonshot.cn/preview/d1e0cit7vdsc15kanffg?blockId=26

Case 6: “韦神”4秒视频涨粉千万,Kimi能看懂人心吗?

最后,我出了一个更抽象、更考验“文科”功底的题目。

Prompt: 请就‘韦东奕4秒视频涨粉千万’这一网络现象,撰写一份分析报告。请深入分析该视频能够迅速引爆舆论的关键传播要素,并探讨该事件所反映出的当代公众对于‘天才’和‘纯粹学者’的复杂心态。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?
分析过程中还用到了Python进行逻辑框架编写

我本以为这个问题对AI来说有点难,但结果再次超出我的预期。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

它不仅梳理了事件本身,更进行了一场漂亮的社会心理学分析。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

报告探讨了“反差感”、“知识崇拜”、“对纯粹的向往”等多个心理动因来解释其爆火的路径。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

文字流畅,逻辑严谨,观点深刻。

只有公众、媒体、学术界以及平台各方共同努力,才能在流量的浪潮中守护学术的纯粹,让学术真正回归其应有的价值与意义,为社会的长远发展提供坚实的知识支撑与精神力量。

case🔗 https://kimi.moonshot.cn/preview/d1e0taj67tiefa4gagq0?blockId=42

结语

一口气测完这几个场景,我最大的感受是:

AI Agent的时代,真的很美好。

而搜索场景,对于绝大多数人来说都非常有必要,这也是Kimi第一个 Agent 要做 Researcher的原因。

几乎所有有意义的任务,起点都是 search —— 只有找到对的信息,才能产生理解,才能推动行动。

深入的 research,其实长期以来都很奢侈,过去只属于大公司和顾问机构。

而 Kimi-Researcher,能够让每个人都能有自己的研究助理。

Kimi-Researcher首发实测:它凭什么在AI“高考”中超越Claude和Gemini?

它不会取代你的独立思考,但它能把你从90%的繁琐、重复、低效的信息搜集和初步处理工作中解放出来,让你能把最宝贵的时间和精力,投入到更高层次的思考、决策和创造中去。

AI正在压缩“完成任务”的时间,从而延长我们“深度思考”的价值。

Kimi还是那个Kimi,

带着它的热情,带着它的诚意,

永远站在用户这边,陪伴用户,

解决用户的问题,

以人为本。


内测申请链接🔗在这里👉🏻https://moonshot.feishu.cn/share/base/form/shrcnun1ElaoXzEZgcJCKppSNse?hide_UserID=1&prefill_UserID=%7B%7Buser_id%7D%7D

期待在评论区看到你的使用心得和各种“神仙”用法!

也许,下一个彻底改变你工作流的“神操作”,就出自你的探索!

如果这篇文章对你有帮助,记得点个赞,转发给朋友。你的每一次互动,都是对我最大的鼓励。

我们下期见!


相关文章