什么时候该使用推理大模型？推理大模型Prompt怎么写？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

AI资讯 6个月前 charles

8.6K 0 5

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南，描述了二者的对比以及推理大模型的prompt需要考虑哪些内容等。本文将总结这份推理大模型最佳实践指南。

什么时候该使用推理大模型？推理大模型Prompt怎么写？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

本文目录如下：

推理大模型和普通大模型的简单对比
不同的大模型分别适合什么样的场景？
推理大模型的提示词（prompt）如何写？
推理大模型适合的场景的实际案例说明

1. 推理大模型适合处理模糊信息的任务
2. 推理大模型擅长从大量数据中提取关键信息
3. 推理大模型适用于跨文档推理和复杂决策
4. 推理大模型能高效执行多步骤规划任务
5. 推理大模型在处理复杂视觉数据中的表现优异
6. 推理大模型在代码审查中的优势
7. 推理大模型在数据评估和模型质量检测中的应用

推理大模型和普通大模型的简单对比

在此前的DataLearnerAI博客中，我们也给出了一份非常详细的对比，解释了什么是推理大模型，以及推理大模型和普通大模型之间的差异，详情参考：什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？https://www.datalearner.com/blog/1051739005308959

简单来说，推理大模型是在回答之前进行思考，并在回复用户之前，在内部生成一长串的思维链过程，这个过程会提高大模型的推理能力。而对于OpenAI官方来说，当前普通的大模型就是指GPT系列，而推理大模型就是o系列。当然，Sam昨天也说了，几周后发布的GPT-4.5将是OpenAI最后一个常规的大模型，未来所有的大模型都是推理大模型，也是AI系统，将根据输入的情况差异自动选择是否使用思维链推理过程。参考：https://www.datalearner.com/blog/1051739409578603。

需要注意的是，OpenAI的“o系列”推理大模型采用不同的训练方法，因此需要不同的prompt。推理大模型在某些任务上效果很好，但并不是总是好于其它的大模型。

推理大模型可以针对复杂的任务进行更长更深的思考，因此在制定战略、规划解决复杂问题的方案以及在大量模糊信息中做出决策方面表现得非常有效。这些模型还可以高精度和高准确度地执行任务，因此它们非常适合那些本来需要人类专家的领域，比如数学、科学、工程、金融服务和法律服务。

而普通的GPT系列大模型则具有更低的延迟和成本，更适合用来直接执行任务。因此，在大模型的应用系统中，我们通常可以使用推理大模型进行任务规划，然后使用普通大模型来执行具体任务，特别是当任务的执行速度和成本的优先级高于准确性的时候。

不同的大模型分别适合什么样的场景？

在具体描述推理大模型和普通大模型适合的应用场景之前，我们先对推理大模型和普通大模型做一个对比：

从上表我们可以看出：
推理模型：擅长复杂问题解决、策略规划、模糊信息处理，适用于高精度领域（如法律、金融、工程）。
GPT模型：低延迟、低成本，适合明确任务的快速执行。

具体来说，我们可以看到如下的选择标准：

速度与成本优先 → 普通大模型（如GPT-4o）
任务明确性 → 普通大模型（如GPT-4o）
准确性/复杂性 → 推理大模型（如o1、R1系列）
典型工作流

：推理大模型规划，普通大模型执行。

根据OpenAI官方的建议，大多数工作流的场景都可以使用推理大模型和普通大模型混排的方式进行，如上图所示。即推理大模型用来做agent的推理和规划以及决策，普通大模型执行。

推理大模型的提示词（prompt）如何写？

推理大模型的提示词与普通大模型是有少许区别的。为此，OpenAI官方给出了推理大模型的一些提示词技巧总结。需要注意的是，这里写的是针对o1系列推理大模型，其它推理大模型可能有一些区别。

特别需要指出的是推理大模型在接受简洁明了的提示时表现最好。某些提示工程技巧，如要求模型“逐步思考”，可能不会提高性能，甚至可能会影响其效果。

以下是一些最佳实践：

开发者消息取代系统消息：从2024年12月17日起，推理模型将支持开发者消息而非系统消息，这与模型规范中描述的命令链行为保持一致。
保持提示简单直接

：这些模型擅长理解和回应简洁、清晰的指令。
避免链式思维提示

：由于这些模型内部进行推理，因此无需提示它们“逐步思考”或“解释推理过程”。
使用分隔符提高清晰度

：使用像Markdown、XML标签和章节标题这样的分隔符，可以清晰地标明输入的不同部分，帮助模型正确理解每个部分。
优先尝试零样本提示

，再根据需要使用少量样本提示：推理模型通常不需要少量示例就能产生好的结果，因此首先可以尝试没有示例的提示。如果你有更复杂的输出需求，加入几个输入和预期输出的示例可能会有所帮助。只要确保示例与提示指令高度一致，避免因不一致而导致不良结果。
提供具体的指导

：如果你希望模型的回答受到某些限制（例如“提出一个预算在500美元以内的解决方案”），请在提示中明确说明这些限制。
明确目标：在指令中尽量提供清晰、具体的成功标准，并鼓励模型不断推理和迭代，直到满足你的成功标准。
Markdown格式

：从2024年12月17日起，API中的推理模型将避免生成带有Markdown格式的回答。如果你确实希望生成Markdown格式的回答，可以在开发者消息的第一行包含字符串“Formatting re-enabled”以提示模型。

可以看到，第一条和最后一条其实是针对OpenAI的推理大模型系列的，其它推理大模型如DeepSeek R1可能不合适。

推理大模型适合的场景的实际案例说明

为了说明推理大模型的适合的场景，这里给出OpenAI官方的7个实例。

1. 推理大模型适合处理模糊信息的任务

在很多法律和金融领域的文档中，常常会遇到信息不完整或难以解读的情况，这时候传统模型的理解能力和准确性通常不够强大。Hebbia 是一家专注于法律和金融分析的AI平台，他们需要快速处理复杂的信贷协议并提取出其中的关键条款。过去，人工分析这些文档既费时又容易出错，而引入 o1 模型后，通过简单的提示，模型能够理解并提取出“限制性支付篮子”等关键条款，甚至在面对模糊信息时依然表现出色。与其他模型相比，o1 提高了处理复杂信贷协议的成功率，特别是在那些密集且模糊的法律条款中，提升了52%的效果。

2. 推理大模型擅长从大量数据中提取关键信息

在并购交易中，合同文件通常包含大量的复杂条款和潜在的法律风险，尤其是当这些条款隐藏在脚注或小字中时，手动审查非常繁琐且容易遗漏。Endex 是一家金融智能平台，专注于分析并购交易中的文档，挑战在于如何快速从大量的合同文件中提取出那些可能影响交易的关键条款。通过使用 o1，Endex 可以精准地识别出合同中的“控制权变更”条款，明确指出如果公司被收购，需要立即偿还7500万美元的贷款。这种高效的推理能力帮助 Endex 快速找出可能对交易产生重大影响的关键信息，避免了潜在的财务风险。

3. 推理大模型适用于跨文档推理和复杂决策

税务研究通常需要处理大量的文档，这些文档之间往往存在复杂的逻辑关系，需要跨文档的推理来得出结论。Blue J 是一家专注于税务分析的AI平台，在税务研究中，他们需要从多个法律文档中提取信息，并进行复杂的推理，形成准确的税务报告。传统方法通常需要人工逐一分析每个文档，而使用 o1 后，Blue J 的团队发现模型能够有效地跨文档推理，提取出多个文档之间的内在联系，最终在处理复杂税务问题时效率提升了4倍，并且推理结果也更加准确，尤其是在税务规则和多个文档之间的关联分析上，表现非常出色。

4. 推理大模型能高效执行多步骤规划任务

在复杂的任务规划中，如何有效地拆解并分配每个步骤的任务一直是一个难题。Argon AI 是一家为制药行业提供AI解决方案的公司，他们面临的挑战是如何将复杂的任务分解为多个步骤，并确保每个步骤的执行精准无误。通过使用 o1，Argon AI 不仅能够为复杂任务制定清晰的规划，还能在每个步骤中选择最合适的执行模型，从而保证任务的高效执行。特别是在面对需要精确拆解的大型制药项目时，o1 作为“规划者”的角色帮助 Argon AI 有效地安排和分配任务，大大提高了整个项目的执行效率和准确性。

5. 推理大模型在处理复杂视觉数据中的表现优异

处理复杂的视觉数据，如图表或结构模糊的图片，传统模型往往无法做到精准分析，特别是在图像质量较差的情况下。Safetykit 是一家专注于在线产品合规审核的AI平台，他们面临的挑战是如何处理低质量的产品图像，尤其是珠宝类商品的图片，这些图像常常缺乏明确结构。Safetykit 最初尝试使用 GPT-4o 模型来进行图像识别，但效果不理想，准确率仅为50%。然而，使用 o1 后，模型的准确率提升至88%，无论是对于模糊的图像，还是对于含有复杂信息的视觉数据，o1 都展现出了强大的推理和视觉理解能力，极大提升了合规审核的准确性。

6. 推理大模型在代码审查中的优势

代码审查通常涉及对大量代码进行细致比对，尤其是在多文件比较时，任何微小的差异都可能被遗漏。CodeRabbit 是一家专注于代码审查的AI平台，面对的挑战是如何自动化处理大规模代码库中的细节差异。使用 o1 后，CodeRabbit 发现模型能够精确地检测出代码中的细微变化，尤其是在多个文件之间的差异检测上表现得尤为突出。通过引入 o1，CodeRabbit 大大提高了代码审查的准确性，并提升了产品转化率，成功实现了3倍的增长，证明了推理大模型在代码质量评审中的强大能力。

7. 推理大模型在数据评估和模型质量检测中的应用

在处理数据验证和模型评估时，尤其是对于涉及医疗等敏感领域的任务，传统方法往往局限于预设规则和模式，无法充分考虑复杂的上下文。Braintrust 是一家AI评估平台，专门从事数据验证和模型评估的工作。特别是在医疗行业，他们需要对不同模型生成的摘要进行质量评估。通过使用 o1，Braintrust 能够更精准地评估模型的输出，并根据上下文进行推理，识别出细微的质量差异。最终，Braintrust 的评估精度大幅提高，F1 分数从0.12提升至0.74，大大提高了模型评估的准确性，证明了推理大模型在复杂数据评估任务中的卓越表现