因参与一个涉及77张表、3000+字段的“地狱级别”黑客松,老于自去年12月份起开始闭关。而在闭关期间,Reasoning Model的衔枚疾进仿佛颠覆了业界对大模型既有的认知。但是,业界的种种带来的恍如隔世,却是大模型早已被书写的命运。14个月以前,Andrej Karpathy在《Intro to Large Language Models》中描绘了大模型的愿景:
这个共识的内核是System-2 Thinking,虽然多模态曾一度风头无两,但行业研发的重心很快回到了<think>这杆大旗之下,毕竟“At Human Level”的聪明并不基于视频生成的质量。OpenAI o1->DeepSeek R1->OpenAI Deep Research“Slower, but more Rational”,在过去半年中,大模型愈来愈长于思考,但价格却越来越便宜(感谢DeepSeek):图1:加速发展中的System-2 Thinking<think>如此成功,以至于Sam Altman宣称:“We are now confident we know how to build AGI as we have traditionally understood it.”但是,仅凭<think>就可以达成普适的“Human-Level”吗? CEO的选择假设你是一位CEO,而你向你的两位首席战略官A和B问了一个相同的问题:如何才能让我们的营收在明年增加20%?首席A:
表1:首席A vs 首席B而A与B之间的差异,就是在现实商业场景中,<think>的缺陷。 <think>的缺陷沿着“Slower,but more Rational”的轨迹,<think>企图以CoT基于自有知识体系结合精选的搜索结果应对现实世界中的复杂问题。但这种模式有两道绕不过去的坎:坎一,数字化边界会制约<think>的求解能力。与Math和Coding不同,绝大部分的商业场景并不具备一个完美复刻现实世界、并提供Reward Function的World Model。即使在未来,我们也不能指望商业场景中的所有关键要素都会被数字化,而这将导致<think>求解所需的关键要素在射程之外(图2):图2:重要的求解信息在<think>的射程之外例如,在2B市场,海量的决定性要素(客户的意图、竞争对手的情报、销售对客户的判断和洞察)可能永远不会被数字化,而仅凭借CRM(结构化数据)和会议纪要(非结构化数据),<think>无法求解客户的真实意图。 坎二,<think>并不具备“厘清”能力。人类是复杂的,当CEO嘴上说:如何才能让我们的营收在明年增加20%?而实际上他的意思是:如何才能(既有客群中)让我们的营收在明年(在不涨价的情况下)增加20%?(同时这块业务不能来源于张总的现有业务...)咨询顾问(类似于首席B)的一个重要技能就是厘清干系人的真实意图,通过收敛问题的范畴从而获得最优解。而当下<think>几乎没有任何厘清的机制。收敛的方向错误,一股脑花费30分钟产生的10万字结论可能无法满足干系人的基本需求。而未来数小时、乃至数天的<think>将无限放大这个缺陷。所以,即使大模型的核心圈宣布AGI的无限接近,但<think>对真实商业场景的无力会倒逼厂商在<think>之外另想办法。而当下最顺理成章的方案是让大模型具备提问的能力,即<question>。 <question>实际上,OpenAI已经在做相关的尝试。在响应用户的要求前,OpenAI Deep Research已经可以通过提问去收敛问题的范围,例如,当用户询问“民用超音速航空市场”的投资机会和风险时,Deep Research会反问:
时间范畴有限定吗?有特定的目标公司吗?
行业、目标市场是什么?限定数据源吗?
有指定技术路线吗?
...
图3: OpenAI Deep Research提出的厘清问题但是,当前该机制还略显原始:一是其提出的问题略显随机,二是在整个<think>过程中,<question>仅仅发生在对话的开始阶段。而理想中的<question>机制包括,首先,能够通过逐层提问收敛问题。对用户意图的厘清工作应该贯穿<think>过程的始终(图4),此外,厘清也并非简单的问题列举,绝大多数情况下是基于现有数据和分析的再次确认。图4: <question>逐层厘清问题其次,能够通过提问收集非数字化的洞察。在此处,<question>执行类似于专家访谈的操作,有目的性地从非数字化世界的海量信息中攫取<think>求解的关键要素。此外,与当下<think>盲信数据源不同,<question>应如同销售总监在QBR上反复“拷问”销售一样,利用交叉验证、压力测试和对表情和体态的观察以辨别这些要素的真伪。图5:通过<question>收集非数字化信息既然业界对Reasoning Model的期许不仅仅是大模型当下的常见用例(客服、文字总结和生成),而是在实际商业场景中达成“At Human Level”的智慧,那么<think>之后,<question>可能是一种必然。当然,<think> + <question>体系还有诸多需要探索的问题,例如