AI论文评审：通过引导思维链来激发大型语言模型中的推理能力

在过去的几年里，大型语言模型在生成文本、回答问题、进行语言翻译以及完成那些它们从未被明确训练过要解决的任务方面，展现出了令人印象深刻的能力。每一代新模型的出现似乎都在印证一个简单的道理：模型规模越大，其能力就越强。然而，在某个领域，进展却显得极为缓慢且令人沮丧。当问题需要经过多步骤的推理才能解决时，语言模型往往会遇到一些难以忽视的困境。

数学应用题、常识性问题或符号谜题往往能暴露出语言模型的流畅表达能力与真正的问题解决能力之间的巨大差距。这些模型虽然常常能够给出看似合理的答案，但仅有这种“自信”是不够的。真正的挑战在于：它们是否能够在得出答案之前完成整个推理过程。

正是在这样的背景下，论文《思维链引导机制能够激发大型语言模型的推理能力》提出了一种既简单又出人意料的思路：作者没有要求模型直接给出答案，而是鼓励它先完成一系列中间推理步骤。

随后发生的，是现代人工智能研究领域最具影响力的发现之一——那些看似缺失于大型语言模型中的推理能力，其实并非真的不存在；在很多情况下，只是因为没有用正确的方法来激发它们而已。

这篇论文彻底改变了研究人员对提示机制、推理过程以及大型语言模型能力的认知。更重要的是，它为后续几年出现的许多以推理为导向的技术和系统奠定了理论基础。

**论文概述**
在本文中，我们将详细探讨2022年由谷歌研究院的研究人员发表的论文《思维链引导机制能够激发大型语言模型的推理能力》。这篇论文提出了现代人工智能领域最具影响力的概念之一：**思维链引导机制**。在研究人员们都在致力于将语言模型规模扩大的背景下，这项研究揭示了一个事实：性能的提升并不一定意味着需要构建更大的模型；有时候，关键在于改变我们与这些模型进行交互的方式。

该论文探讨了一个简单却极具意义的问题：如果鼓励语言模型在给出答案之前展示其推理过程，会会发生什么？研究人员并没有让模型直接作出回应，而是引导它生成一系列中间推理步骤，最终得出答案。正是这一创新性方法，使得这篇论文在历史上具有重要意义——它彻底改变了人们对大型语言模型推理能力的认知。作者们证明，许多推理能力其实可以通过简单的提示机制来激发，而无需额外的训练、微调或架构修改。

这一理念的影响迅速扩展到了算术推理之外，它推动了新一代关于推理能力的研究，包括自我一致性分析、过程监控技术、基于验证的推理方法，以及随后几年出现的各种以推理为导向的语言模型。

在许多方面，这篇论文标志着研究方向的一个转变——从询问语言模型“答案是什么”，转变为询问它们“是如何得出这个答案的”。

如果你想直接了解原文，可以点击以下链接：

“思维链引导法”能在大型语言模型中激发推理能力

下面这张信息图概括了我们在本文中将讨论的内容。

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

先修知识

为了更好地理解本文的内容，你最好已经对一些基础概念以及大型语言模型的发展历程有所了解，因为这些知识对于理解“思维链引导法”的原理至关重要。

阅读本系列之前的文章会特别有帮助：

GPT-3的相关评估尤为重要，因为这篇关于“思维链提示法”的论文正是建立在GPT-3最令人惊叹的能力之一——上下文学习能力之上的。作者们发现，只需改变提示中示例的呈现方式，就能显著提升模型的推理性能，而无需修改模型架构或重新训练模型。

阅读本文还需要具备以下基础知识：

对自然语言处理及大型语言模型有基本的了解
对基于Transformer的自回归模型有基本认识
熟悉提示生成技术、小样本学习以及上下文学习方法
了解语言模型是如何逐个生成文本字符的
掌握机器学习的基本概念，如训练、推理、扩展性规律及模型评估方法
接触过一些推理任务、逻辑问题及数学应用题
对基准数据集及模型性能评估方法有基本了解

阅读本文并不需要深厚的数学或机器学习研究背景。

我的解释会尽量通俗易懂、注重实用性，重点阐述为什么“思维链提示法”会成为现代人工智能领域最具影响力的推理技术之一，以及这种简单的提示策略是如何改变研究人员对语言模型推理机制的理解的。

摘要

长期以来，大型语言模型在推理能力方面一直面临挑战。虽然这些模型能够生成流畅的文本并回答各种问题，但当任务需要多个逻辑步骤来完成时，它们往往表现不佳。

本文提出了一种非常简单的解决方案：在提示模型时，不仅要提供问题和答案，还要包含引导其得出正确结论的中间推理步骤。

作者将这种方法称为“思维链提示法”。通过向模型展示一些逐步推理的示例，他们发现足够大的语言模型能够自行构建推理链条，从而更有效地解决复杂问题。重要的是，这种改进并不需要额外的训练或微调，只需要改变提示的方式而已。

通过对算术、常识推理及符号推理任务的实验验证，本文证明了“思维链提示法”确实能显著提升模型的性能。尤其是在大型语言模型上，这种效果更为明显，这说明随着模型规模的扩大，并结合正确的提示策略，其推理能力会自然得到提升。

本文最引人注目的成果来自GSM8K数学基准测试：PaLM 540B仅使用了8个思维链示例，就取得了顶尖的性能表现，甚至超过了配备了验证器的经过微调的GPT-3系统。这一发现表明，单纯的提示方式就能激发模型原本隐藏的推理能力。

下图通过一个简单的算术例子，对比了标准提示方法与“思维链”提示方法的效果。

标准提示方法与思维链提示方法对比

来源：“思维链提示方法能激发大型语言模型的推理能力”

在标准提示方法中，模型会看到问题与答案的对应关系，并被要求直接给出答案；这种方法在处理多步骤问题时容易导致错误。

而“思维链”提示方法会在示例中包含中间推理步骤，这样当模型面对新问题时，也能按照类似的步骤逐步推导出正确答案。

这项研究证明：提供推理过程演示能够显著提升大型语言模型在算术、常识推理及符号推理任务中的表现。

引言

到2022年，大型语言模型已经彻底改变了自然语言处理领域。像GPT-3这样的模型证明，扩大模型规模确实能带来惊人的能力提升，无论是文本生成还是小样本学习方面。

然而也存在一个重要局限：更大的模型并不一定在推理能力上更强。那些需要多步骤计算、常识判断或符号操作的任务，对目前最大的语言模型来说依然极具挑战性。

作者首先指出了两个具有前景的研究方向。第一个方向是先前的研究结果——推理任务可以从自然语言解释或中间解决步骤中受益。模型不必直接给出答案，而是可以生成类似于人类解决问题的过程来表达自己的推理思路。

第二个方向是“小样本提示”技术，通过提供少量示例让模型学习特定任务，从而无需进行针对该任务的专门训练。

不过这两种方法也都存在不足。利用大量人工编写的推理过程来进行模型训练既耗时又成本高昂，而传统的“小样本提示”方法在需要真正进行推理的任务中往往表现不佳。

本文的核心思想就是将这两种方法的优点结合起来。提示信息不再仅仅包含输入与输出的对应关系，而是增加了“推理过程”这一要素。每个示例都遵循“输入 → 思维链 → 输出”的结构。

这种简单的改进方式就形成了“思维链提示方法”。通过展示中间推理步骤，模型被引导将复杂问题分解成更小、更易于处理的环节，从而最终得出正确答案。

为了验证这一方法的有效性，作者在算术、常识推理及符号推理等多个测试任务中对其进行了验证。结果证明，与标准提示方法相比，“思维链提示方法”确实带来了显著的性能提升，某些任务的改进幅度甚至非常显著。

思维链引导机制

本文的核心观点是关于人类解决复杂问题时的思考方式。面对需要多步骤推理的任务时，我们通常不会直接跳到答案，而是将问题分解成更小的部分，逐步解决每个中间环节，最终得出结论。作者认为，大型语言模型也可以通过类似的思维过程来提升能力。

这一理念催生了“思维链引导机制”：在提示中不仅包含问题和答案，还会列出连接二者的推理步骤。通过观察这些推理过程的示例，足够规模的大型语言模型能够学会自行生成思维链，然后再得出最终答案。

这种方法的意义不仅仅在于提高准确性。首先，它能使复杂问题被分解成易于处理的中间环节，从而简化多步骤推理的过程。

其次，生成的推理过程具有可解释性，研究人员和用户可以借此了解模型是如何得出答案的。虽然这些推理轨迹并不能完全揭示模型的内部计算机制，但它们有助于发现错误发生的部位。

“思维链引导机制”的另一个重要特点是其通用性。作者将其视为一种通用的推理框架，而不仅仅适用于某个特定的基准测试任务。它既可以用于算术问题，也可以用于需要逻辑推理的各类场景，如常识判断、符号操作等。

或许最重要的是，这种能力完全可以通过简单的提示来激发现有语言模型的潜能，而无需额外的训练或架构修改。

本节明确指出了本文的核心观点：提升推理能力并不一定需要新的模型架构或专门的微调训练。在足够规模的大型语言模型中，只要引导它们生成中间推理步骤，而不是直接要求它们给出答案，这些能力就能自然显现出来。

算术推理

作者首先通过算术推理来进行实证研究，因为这一领域长期以来一直暴露出大型语言模型的局限性。

尽管对人类来说，解答数学应用题通常比较直接，但这个过程往往需要一系列中间计算和逻辑推导。

先前的研究表明，即使是大型语言模型，在解决这类问题时也会遇到困难。因此，算术推理成为测试“思维链引导机制”是否真能提升推理能力的理想场景。

为了验证这一方法的有效性，作者选取了五个涵盖不同类型数学应用题的基准测试数据集。这些数据集在难度和题型上各有差异，从简单的算术问题到需要多步骤推理才能解决的复杂题目都有涉及。通过这些数据集，我们可以全面了解语言模型在处理数学推理任务时的表现。<这些实验对比了两种提示策略。第一种是标准的少样本提示方法，在这种方法中，模型会看到仅由问题及其对应答案组成的示例。这是当时主流的提示方式，在整篇论文中也被作为基准参考。

<第二种是思维链提示方法，在这种方法中，每个示例都会被扩展，以包含将问题与最终答案联系起来的中间推理步骤。

<为了确保公平比较，作者们手动创建了8个简单的推理演示案例，并在各种算术测试中反复使用这些案例。重要的是，这些示例并没有经过过度优化，也不是为特定数据集而专门设计的。它们的目的在于验证：是否只需少量自然的推理演示，就能促使模型自主地解决新问题。

<这项研究还评估了多种不同类型的语言模型，包括GPT-3、LaMDA、PaLM、UL2和Codex，这些模型的参数规模从数亿到数千亿不等。这种广泛的样本范围使作者们不仅能够验证思维链提示方法是否有效，还能探究随着模型规模的增大，其效果会如何变化。

<在这个实验框架的基础上，论文探讨了一个核心问题：提供少量逐步推理的示例，是否能够帮助大型语言模型解决那些标准提示方法难以处理的数学问题？

结果

<算术推理实验表明，思维链提示方法的成功在很大程度上取决于模型的规模。

<在各种测试中，一个显而易见的规律是：小型模型从生成推理步骤中获益甚微。在某些情况下，它们的表现甚至会因此变差，因为这些模型产生的解释虽然听起来合理，但实际上存在逻辑错误。

>只有当模型规模达到非常庞大的程度时，思维链提示方法的优势才会显现出来，这说明能够有效利用中间推理步骤本身，是一种随着模型规模扩大而逐渐形成的能力。

<另一个重要的观察结果是：随着问题难度的增加，思维链提示方法带来的好处也会显著提升。对于那些只需要进行单一推理步骤的简单任务来说，标准提示方法就已经足够了，额外的推理过程几乎不会带来任何价值。

>然而，当问题的复杂性提高时，标准提示方法与思维链提示方法之间的差距就会明显扩大。GSM8K测试案例就很好地印证了这一趋势——在允许模型逐步进行推理的情况下，最大的GPT和PaLM模型的表现提高了不止一倍。

<或许最值得关注的结果是：思维链提示方法使大型语言模型能够在某些情况下与专门为这些任务训练的系统相媲美，甚至超越它们。

PaLM 540B仅依靠少量的推理演示，在多个算术测试基准上取得了先进的成果，而这完全是基于提示机制而非针对特定任务的微调训练。这一结果挑战了人们普遍认为的观念：要在推理任务中取得优异表现，就必须使用专门的训练数据集和模型。

为了更好地理解这些改进，作者们手动检查了模型生成的推理过程。当模型得出正确答案时，其推理步骤通常也是正确的，这说明模型往往是按照连贯的逻辑顺序进行推导的，而非随意猜测最终结果。

即使在预测错误的情况下，许多推理链条也大体上是准确的，之所以出错，往往只是因为一些细微的失误，比如计算错误、符号使用不当或遗漏了中间步骤。而更严重的错误，则通常源于对问题本身的误解或推理过程缺乏条理性。

误差分析还为为什么更大规模的模型能从“思维链提示”机制中获得更多益处提供了解释。将PaLM 62B与PaLM 540B进行比较后发现，模型规模的扩大有效减少了小型模型中常见的语义误解和推理不完整的问题。

换句话说，更大规模的模型生成的并不只是更长的解释文本，而是逻辑更加严密、更能准确反映问题本质的推理链条。

消融研究

在深入探讨这一部分内容之前，有必要先简单介绍一下什么是消融研究。在机器学习领域，消融研究是通过系统地移除或修改某种方法的某些组成部分，来确定哪些因素真正决定了该方法的性能。与单纯验证方法是否有效不同，消融研究旨在探究该方法之所以有效的原因。

在本文中，作者通过一系列消融实验，来确定“思维链提示”机制的哪些方面对提升推理能力起到了关键作用。

在证明了“思维链提示”确实能够改善推理性能之后，作者们进一步提出了一个更为根本的问题：这种机制为什么有效？仅仅观察到准确率的提高是不够的。为了弄清这些效果背后的原因，他们设计了一系列实验，分别隔离了提示机制中不同的组成部分进行测试。

有一种可能的解释是：“思维链提示”之所以有用，是因为它促使模型在给出答案之前先生成数学表达式。如果这一假设成立，那么自然语言推理本身可能并不是必不可少的。

为了验证这一观点，作者们尝试用单纯的数学方程式来替代原有的推理步骤。实验结果表明，在像GSM8K这样的复杂测试基准上，这种做法带来的效果非常有限。虽然数学方程式在处理简单问题时确实有帮助，但对于那些需要先理解问题含义再将其转化为数学运算的任务来说，它们往往远远不够。这说明，“思维链提示”的价值并不仅仅体现在符号计算层面。

作者们随后考察了另一个假设：或许“思维链引导”之所以有效，仅仅是因为它能让模型生成更多的符号，从而在解决复杂问题时消耗更多的计算资源。为了验证这一因素，他们设计了一种不会包含任何实质性推理内容的提示方式，这种提示方式仍能生成额外的符号。实验结果显示，使用这种提示方式的性能与标准提示方式相差无几，这说明仅靠增加计算量并不能解释观察到的效果提升。真正起作用的是这些符号所蕴含的推理过程，而非符号的数量本身。第三种可能性是，“思维链引导”实际上只是激活了模型中已存储的相关知识。如果真是这样，那么推理步骤其实并不一定非得出现在答案之前。作者们通过将推理过程放在最终答案之后来进行测试。结果发现，性能又一次回到了基准水平。这一结果表明，推理步骤的顺序在帮助模型找到正确答案的过程中起到了关键作用，而不仅仅是在事后起到解释说明的作用。综合这些实验结果，我们可以更加确信本文的核心观点：“思维链引导”之所以有效，不能仅仅用符号生成、额外的计算资源或对存储知识的便捷访问来解释。事实上，证据表明，推理过程本身才是关键因素。那些中间步骤并非仅仅是装饰性的解释内容，它们似乎真正引导模型通过一系列决策，从而使解决复杂问题变得更加高效。

“思维链引导”方法的稳定性

长期以来，人们一直担心提示方法会对提示中包含的示例内容过于敏感。措辞的微小变化、示例的选择方式，甚至示例的排列顺序，有时都会导致实验结果出现显著差异。

在证实“思维链引导”确实能够提升推理性能之后，作者们进一步研究了这种效果是否具有稳定性，或者是否仅仅依赖于某些精心设计的示例集。

为了验证这一点，研究人员让该论文的多位作者独立地为相同的示例编写推理过程。他们还尝试使用更为简洁的写作风格，并测试了基于完全不同示例集构建的提示方式。

实验的目的是确定，“思维链引导”之所以有效，是因为特定的措辞选择，还是因为其背后的推理结构确实具有实用性。

实验结果提供了令人安心的证据：这种技术并不依赖于特定的作者、写作风格或示例集。虽然不同提示方式在性能上会存在一定差异，但所有版本的“思维链引导”方法都显著优于标准提示方式。无论推理步骤是详细还是简洁，无论是人工编写的还是从独立数据集中提取的，其整体效果都表现出惊人的稳定性。

作者们通过改变提示中使用的示例的顺序和数量，进一步扩展了他们的分析范围。结果再次证明了一个核心结论：尽管提示的设计在某种程度上确实会影响模型的表现，但“思维链引导式提示”的有效性并不取决于某个精心设计过的单一提示。

这种稳定性分析进一步印证了本文最重要的观点之一，即“思维链引导式提示”的成功并非源于某种特定的表述方式或注释风格。事实上，其效果似乎源自让模型接触到了推理过程本身，这说明这种方法所体现的其实是一种更为普遍的原则，而非针对特定提示设计的特殊技巧。

常识推理

到目前为止，这篇论文主要关注的是数学推理。虽然研究结果令人印象深刻，但仍然有一个重要问题没有得到解答：这种“思维链引导式提示”是否只对算术问题有用，还是说它也能在更广泛的推理领域带来改善？

为了探究这个问题，作者们选择了常识推理任务作为研究对象。与数学问题不同，这类任务通常需要具备关于世界的背景知识、理解人类行为的规律，或者能够将多条信息联系起来才能得出结论。在很多情况下，挑战在于通过逻辑推理来分析那些对人类来说显而易见的问题，而非进行计算。

评估范围涵盖了多种不同的测试基准，包括常识问答、多步推理、日期理解、与体育相关的推理任务，甚至还包括将自然语言指令转化为机器人动作的任务。

尽管这些任务之间存在差异，但它们都有一个共同点：解决这些问题往往需要经过一系列中间推理步骤，而无法直接得到答案。

实验结果表明，“思维链引导式提示”的效果远远超出了数学领域。在大多数测试基准中，当模型被要求在给出最终答案之前先生成中间推理步骤时，它们的表现都会显著提升。

这种改进在大型模型身上表现得尤为明显，这说明在算术推理中观察到的现象同样适用于常识推理。

在一些需要多步推理的任务中，这种提示方法带来的效果最为显著。例如，在StrategyQA任务中，“思维链引导式提示”使PaLM 540B的性能超越了之前的最佳水平；而在体育理解测试中，该模型的表现甚至超过了未经辅助的人类体育爱好者。

这些结果说明，“思维链引导式提示”所促进的推理过程能够帮助模型建立事实之间的联系、评估各种观点的合理性，并应对更为复杂的决策场景。

然而，这种改进效果并不是在所有数据集上都是一样的。在CommonsenseQA任务中，模型的表现提升相对较为有限，这表明并非所有的推理任务都能从这种明确的推理路径提示中获益。这一发现提醒我们，“思维链引导式提示”并不是一种适用于所有情况的通用解决方案，尽管它在许多场景下确实能够发挥重要作用。

更广泛地说，这一部分通过证明“思维链引导”技术并不仅仅是一种用于解决数学应用题的方法，从而加强了本文的核心论点。它在多种需要常识的任务中的有效性表明，这种方法能够调动那些在规模足够大的语言模型中才会出现的更一般的推理能力。

符号推理

最后的评估环节完全脱离了数学和现实世界的知识背景。作者们重点关注的是符号推理任务，在这些任务中，成功的关键在于遵循抽象的规则，而不是回忆具体事实或进行计算。对于人类来说，这类任务非常简单，但它们为检测语言模型是否能够始终如一地运用一系列推理步骤提供了有效的手段。

为了探讨这个问题，作者设计了两个受控实验任务。第一个任务要求模型提取并连接一个名字中各个单词的最后一个字母；第二个任务则要求模型追踪硬币在连续抛掷或不抛掷多次后的状态变化。

尽管这些任务看起来很简单，但它们实际上要求模型在不依赖任何关于现实世界的记忆的情况下，进行精确的符号操作。

这些实验特别有趣的地方在于引入了“分布范围之外的测试环境”。在训练阶段，模型仅接触到那些涉及较短推理链的示例；而在评估阶段，它需要解决那些步骤数量超过它之前遇到过的任何示例的任务。

这种设置使作者能够检测模型是否不仅能够遵循某种推理流程，还能够将这一流程应用到更长、更陌生的情况中。

实验结果揭示了一个明显的规律：大型语言模型从“思维链引导”技术中获得了显著的好处，而小型模型即使面对简单的推理任务也会遇到困难。

在那些评估标准与训练示例高度匹配的领域内任务中，当受到“思维链推理”的指导时，最大型的模型表现得近乎完美。这表明它们能够成功学习并应用训练示例中所展示的推理方法。

而那些更具启示性的结果则来自于“分布范围之外的测试”。当推理链条的长度超过训练样本中的示例范围时，传统的引导方法往往会失效；相比之下，“思维链引导”技术使得模型性能随着规模的增加而不断提升，这说明这种技术能够帮助模型将学到的推理模式应用到更广泛的情况中。

虽然与在训练领域内的表现相比，准确率会有所下降，但这些模型仍然能够以传统引导方法无法实现的方式进行泛化学习。

这一部分提供了最有力的证据，证明“思维链引导”技术的作用远不止于提升基准测试成绩。它帮助模型将推理流程应用到更长、之前从未见过的输入数据上，这说明这些生成的推理步骤实际上为系统化的问题解决提供了框架，而不仅仅是一种在熟悉场景下产生更好答案的机制。

讨论

本文最重要的贡献并不在于提出了新的模型架构、新的训练目标或更大的数据集，而是证明了通过简单的提示方式改变，就能激发那些标准提示方法往往无法揭示的能力。

在算术、常识推理以及符号推理任务中，“思维链提示”这一方法始终能够帮助大型语言模型解决那些此前难以处理的问题。

整篇论文贯穿的一个核心主题是“推理能力与模型规模之间的关系”。作者们反复观察到：只有当模型达到一定的规模时，“思维链提示”才能真正发挥效果。较小的模型虽然能够生成连贯的推理过程，但这些推理往往在逻辑上存在矛盾；而较大的模型则能够有效地运用中间推理步骤，从而显著提升问题解决能力。

这一发现进一步印证了当时语言模型研究中的一个普遍结论：某些能力并非会逐渐发展出来，而是当模型规模超过某个临界点时才会显现出来。

或许最值得关注的是，这种提示方法可能大大低估了大型语言模型的实际能力。

在这项研究之前，许多推理任务似乎都达到了性能上限。而“思维链提示”表明，这些限制并不总是源于模型本身，有时而是源于人们要求模型解决问题的方式。从这个意义上说，这篇论文将研究的重点从开发更强大的模型，转向了探索如何更好地利用模型已有的能力。

同时，作者们也谨慎地没有夸大他们的结论。虽然模型生成的推理过程看起来与人类的推理方式相似，但本文并未证明语言模型的推理机制确实与人类相同。这些生成的推理路径可能反映了真实的解决问题的过程，也可能只是事后进行的合理化解释，或者介于两者之间。如何准确理解这些生成结果与模型内部计算过程之间的关系，仍然是一个尚未解决的研究课题。

作者们还指出了几个实际存在的问题。要构建高质量的推理演示案例，往往需要付出额外的努力，尤其是当这种方法被应用于超出“少样本提示”范围的情况时。

此外，生成“思维链”并不能保证其中的推理过程一定是正确的。模型仍然有可能产生看似合理但实际上存在缺陷的推理路径，从而导致错误的答案。

最后，这些优势似乎只存在于规模非常大的模型中，这就引发了关于计算成本的问题，以及是否可以在较小的系统中也诱导出类似的推理能力。

从历史的角度来看，这篇论文标志着语言模型推理研究的一个转折点。它表明，推理能力并非必须通过专门的训练才能在模型中体现出来，而是可以通过恰当的提示策略来激发这些能力。

此后出现的许多具有重要影响的理念，包括自洽性、推理监督、过程监督，以及后来出现的那些以推理为核心的模型，其思想基础在一定程度上都可以追溯到这里提出的这个简单见解：有时候，当一个模型被鼓励展示它的推理过程时，它的表现会更好。

“思维链提示”这一理念的出现并非孤立发生的。事实上，这篇论文处于两个多年来各自独立发展的研究方向的交汇点上。

第一个研究方向致力于帮助模型通过中间推理步骤来解决复杂问题。早期的研究已经表明，当模型生成自然语言形式的解释而非直接给出答案时，数学推理等任务会变得更容易完成。研究人员探索了各种方法，训练模型在得出最终解决方案之前先生成解释性内容、推理过程或中间计算结果。

另一种研究方法则依赖于形式化的符号表示，将问题转化为结构化的方程或逻辑表达式。尽管这些方法之间存在差异，但它们都遵循着一个共同的直觉：复杂的推理任务往往可以通过分解为更小的步骤来更容易地解决。

“思维链提示”继承了这一直觉，但同时引入了一个重要的变化。以往的方法通常需要专门的训练流程、专用数据集或针对特定任务的微调操作。

相比之下，这篇论文证明了仅仅通过提示就可以引导模型生成推理过程。作者们表明，提供一些推理示例就足以激发足够大的语言模型中原本就存在的这些能力，而无需对其进行额外的训练。

第二个研究方向关注的是提示本身。在GPT-3和少样本学习的成功之后，越来越多的研究开始探索如何利用提示来提升模型的性能，而无需重新进行训练。

研究人员尝试了提示工程、提示调优以及自然语言指令等方法，以更有效地向语言模型传达任务要求。这些技术大多侧重于通过改变向模型描述任务的方式来优化交互过程中的输入环节。

“思维链提示”采取了不同的方法。它并没有修改任务前的指示内容，而是通过补充一些示例来揭示连接输入与输出的推理过程。这一区别看似细微，但实际上体现了这篇论文的一个关键见解：它的意义不仅仅在于提供了一个更优秀的提示模板，更重要的是它让人们意识到，展示如何进行推理与描述需要解决的任务同样重要。

从更广阔的角度来看，这篇论文在“推理过程研究”与“提示技术研究”之间架起了一座桥梁。它结合了这两种研究的优势，从而为后来语言模型在推理能力方面的诸多进展奠定了基础，包括自洽性、STaR、过程监督，以及随后出现的那些以推理为导向的系统。

结论

“思维链引导”这一方法提出了一种简单的理念，它改变了研究人员对大型语言模型推理能力的认知。作者们证明，无需修改模型架构或进行额外训练，只需鼓励模型在生成答案之前先输出中间推理步骤，就能有效地提升它们的推理能力。

在算术、常识推理以及符号推理任务中，实验结果都表明：当允许大型语言模型逐步解决问题时，它们的能力会显著提升。更重要的是，这项研究揭示出：许多这种能力的提升是在模型规模变大后才会出现的，这说明推理能力并非仅仅是某种提示机制的产物，而是一种随着模型性能增强而逐渐被激活的能力。

这项研究的真正影响力并不在于其方法的复杂性，而在于它所揭示的这一重要见解。一个模型可能具备解决某个问题所需的知识，但在被要求立即给出答案时却无法有效运用这些知识。“思维链引导”方法表明，模型得出答案的过程本身，与答案本身同样重要。

这一理念帮助人们将人工智能研究的重点从语言模型“知道什么”转向了它们“如何进行推理、规划以及解决问题”。此后出现的许多技术（包括自我一致性机制、过程监督技术、基于验证的方法，以及现代以推理能力为核心的系统）都是建立在这篇论文所奠定的基础之上的。

回顾来看，“思维链引导”不仅仅是一种提示技巧，它标志着语言模型推理研究的一个转折点——这一方法证明了：某些能力其实并非模型所缺乏的，只是需要适当的条件才能被激发出来。

下图展示了那些对现代人工智能发展产生深远影响的重要论文和里程碑，从GPT-1的诞生，到GPT-2和GPT-3的规模扩展技术，再到指令引导、思维链推理、自我一致性机制、过程监督技术，以及最新一代以推理能力为核心的模型。这些研究共同揭示了人工智能领域是如何从让模型预测语言内容，逐渐发展到帮助它们进行推理、验证并解决日益复杂问题的。

塑造现代人工智能的关键GPT系列论文

资源链接

AI论文评审：GPT-4技术报告

AI论文评审：通过引导思维链来激发大型语言模型中的推理能力

目录：

先修知识

摘要

引言

思维链引导机制

算术推理

结果

消融研究

“思维链引导”方法的稳定性

常识推理

符号推理

讨论

结论

资源链接

Related Posts:

AI论文评审：通过引导思维链来激发大型语言模型中的推理能力

目录：

先修知识

摘要

引言

思维链引导机制

算术推理

结果

消融研究

“思维链引导”方法的稳定性

常识推理

符号推理

讨论

相关研究

结论

资源链接

Related Posts: