<think>之后，是什么？

AI资讯 6个月前 charles

9.1K 0 35

因参与一个涉及77张表、3000+字段的“地狱级别”黑客松，老于自去年12月份起开始闭关。

而在闭关期间，Reasoning Model的衔枚疾进仿佛颠覆了业界对大模型既有的认知。但是，业界的种种带来的恍如隔世，却是大模型早已被书写的命运。

14个月以前，Andrej Karpathy在《Intro to Large Language Models》中描绘了大模型的愿景：

多模态；
System-2 Thinking；
RL + Self-Improvement；
LLM OS；
...

而后续的演进证明，虽然对AGI没有绝对一致的定义，但核心圈对“大模型应有的样子”可能早已达成了共识。

这个共识的内核是System-2 Thinking，虽然多模态曾一度风头无两，但行业研发的重心很快回到了<think>这杆大旗之下，毕竟“At Human Level”的聪明并不基于视频生成的质量。

OpenAI o1->DeepSeek R1->OpenAI Deep Research

“Slower, but more Rational”，在过去半年中，大模型愈来愈长于思考，但价格却越来越便宜（感谢DeepSeek）：

图1：加速发展中的System-2 Thinking

<think>如此成功，以至于Sam Altman宣称：

“We are now confident we know how to build AGI as we have traditionally understood it.”

但是，仅凭<think>就可以达成普适的“Human-Level”吗？

CEO的选择

假设你是一位CEO，而你向你的两位首席战略官A和B问了一个相同的问题：

如何才能让我们的营收在明年增加20%？

首席A：

拿到问题后马上闭关。经过一个多月的苦心思考、查阅无数资料，最终整理出100页PPT和10万字的论证。

首席B：

首先询问确认了你的观点和判断；
之后，基于你的观点和判断组织了十数场针对内部（产品/销售/客户成功）、外部（客户/竞品）专家的调研和访谈；
不断利用外部的事实和洞察校验和调整既有的观点，同时持续寻求你的反馈意见以保证大方向的一致性；
大概一个多月后，交付了1页具有说服力的Executive Summary，10页以内具备完整逻辑的Storyline，以及30～50页的翔实支持数据。

如果首席A和B只能留其一，你会选择谁？

首席A的行事方式更接近于<think>，而首席B则代表典型的“Human-Level”咨询顾问。

表1：首席A vs 首席B

而A与B之间的差异，就是在现实商业场景中，<think>的缺陷。

<think>的缺陷

沿着“Slower，but more Rational”的轨迹，<think>企图以CoT基于自有知识体系结合精选的搜索结果应对现实世界中的复杂问题。

但这种模式有两道绕不过去的坎：

坎一，数字化边界会制约<think>的求解能力。与Math和Coding不同，绝大部分的商业场景并不具备一个完美复刻现实世界、并提供Reward Function的World Model。即使在未来，我们也不能指望商业场景中的所有关键要素都会被数字化，而这将导致<think>求解所需的关键要素在射程之外（图2）：

图2：重要的求解信息在<think>的射程之外

例如，在2B市场，海量的决定性要素（客户的意图、竞争对手的情报、销售对客户的判断和洞察）可能永远不会被数字化，而仅凭借CRM（结构化数据）和会议纪要（非结构化数据），<think>无法求解客户的真实意图。

坎二，<think>并不具备“厘清”能力。人类是复杂的，当CEO嘴上说：

如何才能让我们的营收在明年增加20%？

而实际上他的意思是：

如何才能（既有客群中）让我们的营收在明年（在不涨价的情况下）增加20%？（同时这块业务不能来源于张总的现有业务...）

咨询顾问（类似于首席B）的一个重要技能就是厘清干系人的真实意图，通过收敛问题的范畴从而获得最优解。而当下<think>几乎没有任何厘清的机制。收敛的方向错误，一股脑花费30分钟产生的10万字结论可能无法满足干系人的基本需求。而未来数小时、乃至数天的<think>将无限放大这个缺陷。

所以，即使大模型的核心圈宣布AGI的无限接近，但<think>对真实商业场景的无力会倒逼厂商在<think>之外另想办法。

而当下最顺理成章的方案是让大模型具备提问的能力，即<question>。

实际上，OpenAI已经在做相关的尝试。在响应用户的要求前，OpenAI Deep Research已经可以通过提问去收敛问题的范围，例如，当用户询问“民用超音速航空市场”的投资机会和风险时，Deep Research会反问：

时间范畴有限定吗？有特定的目标公司吗？
行业、目标市场是什么？限定数据源吗？
有指定技术路线吗？
...

图3: OpenAI Deep Research提出的厘清问题

但是，当前该机制还略显原始：一是其提出的问题略显随机，二是在整个<think>过程中，<question>仅仅发生在对话的开始阶段。

而理想中的<question>机制包括，首先，能够通过逐层提问收敛问题。对用户意图的厘清工作应该贯穿<think>过程的始终（图4），此外，厘清也并非简单的问题列举，绝大多数情况下是基于现有数据和分析的再次确认。

图4: <question>逐层厘清问题

其次，能够通过提问收集非数字化的洞察。在此处，<question>执行类似于专家访谈的操作，有目的性地从非数字化世界的海量信息中攫取<think>求解的关键要素。

此外，与当下<think>盲信数据源不同，<question>应如同销售总监在QBR上反复“拷问”销售一样，利用交叉验证、压力测试和对表情和体态的观察以辨别这些要素的真伪。

图5：通过<question>收集非数字化信息

既然业界对Reasoning Model的期许不仅仅是大模型当下的常见用例（客服、文字总结和生成），而是在实际商业场景中达成“At Human Level”的智慧，那么<think>之后，<question>可能是一种必然。

当然，<think> + <question>体系还有诸多需要探索的问题，例如

基于当下的RL + Search机制，模型如何触发提问？还是在RL之外另起炉灶？
如何构建私有问题解决框架？和提问最佳实践？
如何能够让模型连续<think> + <question>数个月？
...

我将持续关注<question>

版权声明：charles 发表于 2025年2月21日 am9:23。
转载请注明：<think>之后，是什么？ | AI工具大全&导航

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

4.9K 40

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

3.3K 30

AI大模型的实施路径

charles

6.9K 10

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

6.8K 20

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

6.3K 20

刚刚！ChatGPT正式成为AI搜索，免费可用

charles

7K 10

<think>之后，是什么？

Kimi推出MoBA：突破性实现无限上下文！

OpenAI周活4亿，占世界人口5%

相关文章

相关文章