首页 • AI资讯 • AI资讯 • 前沿科技 • Kimi探索版正内测中,国产第一个o1?
今天,登录Kimi网站,发现会话窗口出现了一个特殊的提示。
输入“/”使用Kimi探索版,解决复杂的搜索问题。
再想想?不对。那个是“@”命令,快捷调用Kimi+的,也就是kimi的官方智能体。
原来是快捷调用Kimi探索版,专门用来解决复杂问题的,类似于OpenAI的o1模型,智力程度特别高,推理能力特别强,在某些特殊领域(比如数学、编程、推理)特别好用。
第一只螃蟹,没想到是由月之暗面推出的。不过再一细想,也属正常。
毕竟,月厂主打的就是长文本、总结和推理能力,第一家也确实应该由月厂来做。
就是这使用次数(5次/天 ),略显抠搜……喂,我可是你们家的399登月会员呢~
对于OpenAI的o1模型,我们知道它采用了Cot (Chain of Thought,思维链)技术,并且会进行Self-play RL (自我对弈强化学习)强化学习,可以做非常复杂的推理任务 ,智力程度堪比博士。
搜索三国主要战役-->查找三国战役地点-->查找每次战役对应的现代城市和地区。
这185个url,要是我一个个去找。真的,这一天的时间都得耗在这里。
最后,生成了一个简洁干练的回答,总结了41次大小战役以及其对应的现代地点。
计算多个小品里的虚拟酒食价格,不管问题有多跳跃,都能回答。
如果回答有问题,它还会进行自我反思(其他问题的回答),补充回答。
卧槽,你还是人吗?哦,机器呀,放心了。再一细想,我又完全放心不下了。。
什么是Cot?什么是Self-play RL?这里的case,就是对技术最好的解释。
同样的问题,我们问问某个下载量遥遥领先的大模型,它只能回答出10个,信源只有8个。
这个问题涉及不同的文学作品,而且是计算农历,一不小心很多AI都会扑街,就像这样。
或者,又比如这个模型已经搜到了生日,但还是不肯计算。
嗯,这才是正确的人类计算方式啊。先确定两人生日,然后一个个计算,最后再累加,这里面没有捷径。只有按照思维链,一步步推理、计算,才能得出最终唯一的结果。
上难度,我们给它来道AIME 2024年竞赛题 ,一项专门为美国顶尖高中数学学生设立的挑战性考试,看看Kimi怎么答。
将问题发给Kimi后,它马上就开始解题,不到30s,就全部解答了出来。
注意看左下角,我全程是关闭联网的,也就是说Kimi是通过自身的底层模型来答的这道题,而并非上网搜索。
注:本题已经过改编,即使AI联网搜索也找不到答案。这是全网唯一的题目。
问: 某公司被窃,A、B、C、D四人涉嫌被拘留。侦破结果表明,罪犯就是其中的某一个人。A说:“是C偷的。”B说:“我没偷。”C说:“我也没偷。”D说:“如果B没有偷,那么就是我偷的。”现已査明,其中只有一个人说了假话,从上述条件可以确定谁偷成立?
我们可以通过分析每个人的陈述来确定谁是罪犯。已知只有一个人说了假话,其他人都说了真话。我们逐一分析每个人的陈述:
我们假设每个人分别说了假话,然后验证是否符合条件。
D说真话,D说“如果B没有偷,那么就是我偷的”,B没有偷,所以D偷了。
D说真话,D说“如果B没有偷,那么就是我偷的”,B偷了,所以D不偷。
D说真话,D说“如果B没有偷,那么就是我偷的”,B没有偷,所以D偷了(矛盾)。
D说假话,说明“如果B没有偷,那么就是我偷的”是假的,即使B没有偷,D也没有偷。
综上所述,只有假设A说假话时,所有条件都符合。因此,罪犯是D。
这是我制作的逻辑对照表,你看一眼就明白了。只有A说假话时,其他人都说了真话,符合条件,得出D是小偷。
这道题,曾难倒过不少AI,没想到Kimi探索版居然答对了。
相关文章