Kimi-Researcher首发实测：它凭什么在AI“高考”中超越Claude和Gemini？

AI资讯 7个月前 charles

11.1K 0 35

很多小伙伴说，Kimi最近一段时间没有声音：似乎突然不卷了，其它AI厂商你追我赶的一直发布新产品，而Kimi迟迟没有动静...

但其实Kimi这段时间一直在深耕技术，在HuggingFace上很活跃！

Kimi-Researcher首发实测：它凭什么在AI“高考”中超越Claude和Gemini？ — huggingface上的Kimi仓库

而就在前几天，悄咪咪地放出了一个“大招”—— Kimi-Researcher (深度研究)。

内测申请通过后就能看到上面的界面~我们也第一时间拿到了内测资格，深度体验了一番。相比其它的GPT、Claude、Gemini等等DeepResearch功能来说，我觉得本次的更新主要有以下几个特点：

内容丰富度和准确性有很大提升
逻辑性很强
可视化非常不错，阅读体验拉满

为什么能做到这些？

用官方的话来说就是：模型即 Agent！

它是基于端到端自主强化学习技术训练的新一代 Agent 模型，专为深度研究任务而生。

所有任务，它都会生成一份万字、可溯源的研究报告和一个可视化的动态网页。

这次Kimi搞的，到底是个啥？

再跟小伙伴们简单介绍下何谓「专为深度研究任务而生的 Agent 产品」

我们先来做个类比，帮你理解它的段位：

传统搜索：像个图书管理员。你问他问题，他扔给你一堆可能相关的书（网页链接），让你自己一本本翻。
普通AI大模型：像个读书快的学霸。你给他一堆书，他能帮你快速读完并总结个摘要。但他看的书，还是得你先找给他。

而 Kimi-Researcher呢？

像一个自带顶级图书馆和完整研究团队的金牌首席研究员。你只需要提出一个研究课题，他就会自己去规划课题、查资料（平均搜索200多个网址）、深度研读、筛选信息（只用最高质量的3.2%）、分析对比、查缺补漏、最后直接给你交付一份逻辑严密、引经据典的深度研究报告，甚至还附带一个可交互的可视化简报！

官方数据显示，Kimi-Researcher 为了回答一个问题，平均要进行23步推理，规划74个搜索关键词，最终生成的报告平均长达上万字，并引用26个高质量信源。所有引用都内嵌在正文里，点击就能溯源，以此来保证了报告的专业性和严谨性。

在专为AI设计的“高考”——高难度benchmark“HLE”(也被称为人类最后一次考试)中，Kimi-Researcher的成绩甚至超过了Claude 4 Opus和Gemini 2.5 Pro，达到了全球顶尖水平。

同时在红杉中国发布的 xbench 基准测试中 Kimi-Researcher也取得了不错的成绩，领先其他模型。

这，就是底气。

光说不练假把式，上强度！

吹得再牛，不如实际拉出来遛遛。

大家也都不想看榜单数据，毕竟实际体感最重要，

我们特意挑选了几个最近全网热议的话题，用它们来给Kimi-Researcher上点强度，看看它到底是不是“真香”！

Case 1: 河北高考分数线创历史新高，考生的出路在哪里？

这两天高考成绩陆续出来了，“河北高考分数线创历史新高”的这一消息刷屏了。

作为一名曾经的河北考生，我很好奇这背后的原因到底是什么。这个问题比较复杂，正好拿来考验Kimi。

Prompt: 帮我分析一下河北省2025年高考分数线创历史新高的原因

Kimi-Researcher的表现：

可以看到，我给输入了一句非常短的提问，发送给Kimi后，它不会直接去进行「搜索」操作，而是会进行反问，跟用户对齐信息，针对「问题」本身进行反问，确认跟用户的预期一致。

比如追问用户希望重点了解哪些方面，同时列举出来这些影响因素，让用户选择，用户可以按需选择。

然后开始搜索和梳理：通过观察可以发现他首先进行的是基础信息的搜索和梳理，也就是对整体信息进行了把控（2025年分数线变化）。而后开始深入分析导致这一结果的多方面原因（报考人数、试题难度、评卷标准、高考改革等）。

而在这个过程中，我发现了Kimi-Researcher这个Agent的最基础的特性——「反思」，在遇到问题之后，它会自动纠错，自行反思，考虑多样因素，再结合「规划」能力去进一步的搜索和查询。

在这个过程中它会使用search和BrowserUse来不断地获取信息，调用工具等等

等待所有搜索和梳理结束后，最终生成一份详实的万字报告，所有引用都内嵌在正文中，点击即可跳转，并高亮原文，便于验证与追溯。

而且，它还会给我们生成一份精美的可视化报告。

可以看到，他首先输出了对分数线创新高的概括，而后从考生人数与招生计划、试题难度与评卷标准、新高考改革影响、复读生比例、甚至社会升学观念等多个角度，全面剖析了分数线暴涨的复杂成因。

最值得关注的其实就是最终的结论，

这里也祝各位考生心想事成，皆有所愿。

case🔗 https://kimi.moonshot.cn/preview/d1e0giep4uoecvdfhfvg?blockId=108

Case 2: 解剖顶流“LABUBU”，它凭啥能火遍全球？

要说潮玩圈最近谁最火？非LABUBU莫属。这个尖牙歪嘴的小精灵是怎么从一个绘本角色，变成让无数人疯狂的潮流符号的？我直接把这个课题抛给了Kimi。

Prompt: 请撰写一份关于潮玩IP‘LABUBU’的深度研究报告。报告需追溯其从诞生到成为全球潮流符号的全过程，并创建一个关键发展节点的时间轴。请重点分析其母公司泡泡玛特的商业策略、与艺术家龙家升的合作模式，以及其在社交媒体上的营销手法。最后，请将其与其它知名潮玩IP（如Molly、Bearbrick）进行对比，分析其成功的可复制性和面临的潜在市场风险。

它像一个真正的分析师一样，开始自主规划任务、全网搜集资料、进行深度分析。十几分钟后，一份近2万字的深度报告和一份精美的可视化网页就出炉了。

这已经不是在做“搜索”，而是在做“商学院级别的案例分析”。

对于需要做市场研究、竞品分析的同学来说，这效率简直是“外挂”级别的。

从艺术家创作、到与泡泡玛特合作、再到关键联名和营销节点，整理得明明白白。

分析的深度和信源都很广，从商业模式、IP运营、社交媒体营销等多个维度分析了LABUBU成功的深层原因。

case🔗 https://kimi.moonshot.cn/preview/d1e0n1hic4udgjkblghg?blockId=10

Case 3: 化身历史课教师，Kimi能上好“爱国教育课”吗？

今年是抗日战争胜利80周年，我们也都知道9月3号要举行盛大仪式，

那么面对这样严肃宏大的历史题材，Kimi能否胜任一个“历史课教师”的角色，让我们“以史为鉴”？

Prompt: 请为一堂面向高中生的历史公开课，设计一份关于‘中国人民抗日战争暨世界反法西斯战争’的教学材料。材料需包含：1. 一条清晰的、从1931年到1945年的战争重大事件时间轴。2. 一张结构化的思维导图，阐明这场战争的国际背景、东方主战场地位及其历史意义。3. 为纪念活动撰写一篇主题演讲稿，回顾历史、缅怀先烈、展望和平。

我们可以看到，我们的需求点Kimi完成的都很好，

一条清晰的时间轴
一张结构化思维导图
还有我们的演讲稿

教学材料结构完整，逻辑清晰，从时间轴到思维导图，将复杂的历史脉络梳理得井井有条。

撰写的演讲稿情感真挚、文字有力，完全符合该场合的严肃氛围。

case🔗 https://kimi.moonshot.cn/preview/d1e0nvf37oq3d4sdef70?blockId=108

Case 4: 给“劳模”雷军立小传，AI能写出新意吗？

雷军和小米的故事大家耳熟能详，特别是小米汽车发布后，更是全网焦点。要为这样一位知名人物立小传，挑战不在于找不到资料，而在于能否超越信息的堆砌，写出新意。

Prompt: 请为雷军撰写一份人物小传。报告应客观、平衡，并引用公开的采访、演讲和权威媒体报道作为信源。

这里其实还有一个idea，就是可以直接给一些人做背调，只要在互联网上留下过一些痕迹，就能查得到，感兴趣的朋友可以试试，说不定Kimi会给你惊喜~

case🔗 https://kimi.moonshot.cn/preview/d1e0p9s7fff5bk4r9c40?blockId=32

Case 5: 《长安的荔枝》停播事件

最近马伯庸的《长安的荔枝》改编成的同名电视剧也频繁上热搜，从最开始的重大期待，好评如潮一直到之后的拉跨，甚至最终还闹出了停播事件，我就想让Kimi帮我分析分析是怎么个情况。

帮我详细分析<长安的荔枝停播事件>的用户舆论：

汇总社交媒体上用户对<长安的荔枝电视剧>的主要正面评价（喜欢的点）和负面吐槽（不满之处）。

统计正负评价的大致占比，分析用户整体满意度倾向。

引用几条具有代表性的用户评论（注明出处，如微博或论坛）。

根据反馈给出对<长安的荔枝>剧组改进的建议。

之后同样经历了反问用户问题进行对齐之后开始工作：

还从豆瓣上找到了很多优质评论：

最终生成了一篇万字报告和图文精美的可视化报告：

最后还按照我们prompt中的要求给出了剧组建议..

case🔗 https://kimi.moonshot.cn/preview/d1e0cit7vdsc15kanffg?blockId=26

Case 6: “韦神”4秒视频涨粉千万，Kimi能看懂人心吗？

最后，我出了一个更抽象、更考验“文科”功底的题目。

Prompt: 请就‘韦东奕4秒视频涨粉千万’这一网络现象，撰写一份分析报告。请深入分析该视频能够迅速引爆舆论的关键传播要素，并探讨该事件所反映出的当代公众对于‘天才’和‘纯粹学者’的复杂心态。

我本以为这个问题对AI来说有点难，但结果再次超出我的预期。

它不仅梳理了事件本身，更进行了一场漂亮的社会心理学分析。

报告探讨了“反差感”、“知识崇拜”、“对纯粹的向往”等多个心理动因来解释其爆火的路径。

文字流畅，逻辑严谨，观点深刻。

只有公众、媒体、学术界以及平台各方共同努力，才能在流量的浪潮中守护学术的纯粹，让学术真正回归其应有的价值与意义，为社会的长远发展提供坚实的知识支撑与精神力量。

case🔗 https://kimi.moonshot.cn/preview/d1e0taj67tiefa4gagq0?blockId=42

结语

一口气测完这几个场景，我最大的感受是：

AI Agent的时代，真的很美好。

而搜索场景，对于绝大多数人来说都非常有必要，这也是Kimi第一个 Agent 要做 Researcher的原因。

几乎所有有意义的任务，起点都是 search —— 只有找到对的信息，才能产生理解，才能推动行动。

深入的 research，其实长期以来都很奢侈，过去只属于大公司和顾问机构。

而 Kimi-Researcher，能够让每个人都能有自己的研究助理。

它不会取代你的独立思考，但它能把你从90%的繁琐、重复、低效的信息搜集和初步处理工作中解放出来，让你能把最宝贵的时间和精力，投入到更高层次的思考、决策和创造中去。

AI正在压缩“完成任务”的时间，从而延长我们“深度思考”的价值。

Kimi还是那个Kimi，

带着它的热情，带着它的诚意，

永远站在用户这边，陪伴用户，

解决用户的问题，

以人为本。

内测申请链接🔗在这里👉🏻https://moonshot.feishu.cn/share/base/form/shrcnun1ElaoXzEZgcJCKppSNse?hide_UserID=1&prefill_UserID=%7B%7Buser_id%7D%7D

期待在评论区看到你的使用心得和各种“神仙”用法！

也许，下一个彻底改变你工作流的“神操作”，就出自你的探索！

如果这篇文章对你有帮助，记得点个赞，转发给朋友。你的每一次互动，都是对我最大的鼓励。

我们下期见！

版权声明：charles 发表于 2025年6月26日 am3:56。
转载请注明：Kimi-Researcher首发实测：它凭什么在AI“高考”中超越Claude和Gemini？ | AI工具大全&导航

谈谈GROK2大模型使用感受

charles

17.5K 25

OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

charles

17.1K 30

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

13.8K 45

腾讯智能体体验：腾讯AI焊在微信里面了

charles

12.9K 35

AI代码库问答引擎Folda-Scan

charles

13.6K 10

🧠 大模型到底厉害在哪？看完这篇你就懂了！

charles

16K 40

Kimi-Researcher首发实测：它凭什么在AI“高考”中超越Claude和Gemini？

这次Kimi搞的，到底是个啥？

光说不练假把式，上强度！

Case 1: 河北高考分数线创历史新高，考生的出路在哪里？

Case 2: 解剖顶流“LABUBU”，它凭啥能火遍全球？

Case 3: 化身历史课教师，Kimi能上好“爱国教育课”吗？

Case 4: 给“劳模”雷军立小传，AI能写出新意吗？

Case 5: 《长安的荔枝》停播事件

Case 6: “韦神”4秒视频涨粉千万，Kimi能看懂人心吗？

结语

🧠 解码大语言模型的记忆力：上下文长度的前世今生

AI 原生的信息获取和分发——思考与实践｜深言科技岂凡超

相关文章

相关文章