GPT-3是自然语言处理领域的一项重大突破。凭借其1750亿个参数,它展现了出色的小样本学习能力,同时也证明了扩大大型语言模型的规模确实能够开启诸多新的功能。
然而,尽管GPT-3的表现令人印象深刻,但它也暴露出一个重要缺陷:仅仅拥有强大的功能并不意味着就能自动创造出实用的帮助工具。
一个语言模型虽然能够生成流畅的文本、回答问题并完成复杂的任务,但仍然有可能无法理解用户的真实需求。
GPT-3产生的回应往往缺乏一致性,过于自信,难以被有效控制,甚至可能与用户的指令相悖。它确实是一个强大的预测工具,但它并不是为了可靠地充当辅助工具而设计的。
正是这一挑战催生了现代人工智能领域最具影响力的论文之一——《利用人类反馈训练语言模型以使其遵循指令》。研究人员并没有试图让模型变得更大,而是专注于教会它如何更好地理解人类的意图。
最终诞生的InstructGPT就是在GPT-3的基础上进行微调得到的系统,它证明了人类反馈确实能够将一个功能强大的语言模型转变为更加实用、更符合用户需求的辅助工具。
研究人员意识到,仅仅构建更大的模型并不能解决所有问题。虽然规模的扩大确实能提升模型的能力,但并不能保证它们能够可靠地执行指令或符合用户的期望。因此,下一步的发展方向应该是教会模型如何以更加有帮助、诚实且安全的方式做出响应。
GPT-3展示了大规模语言建模的强大潜力,也让许多人了解了提示机制和小样本学习的概念。
InstructGPT在这一基础上进一步证明了人类反馈对于提升模型的指令遵循能力以及其行为表现的重要性。而ChatGPT则将这些理念应用到了更广泛的领域中,通过设计易于使用的对话界面,让数以百万计的用户能够享受到这些技术带来的便利。
InstructGPT的成功为后续许多一致性优化技术的发展奠定了基础,而这些技术后来也成为ChatGPT和GPT-4等系统的核心组成部分。
论文概述:
在本文中,我们主要关注OpenAI于2022年发表的论文利用人类反馈训练语言模型以遵循指令。
这篇论文介绍了InstructGPT,这是大型语言模型发展史上的一个重要里程碑。早期的GPT系统主要致力于扩大模型规模并提升其基本功能,而这项研究将关注点转向了同样重要的方面:模型与人类指令之间的匹配度。
该论文探讨了如何通过利用人类反馈进行强化学习,来训练语言模型使其更好地遵循人类的指令。这种训练方法并非仅优化模型的下一个词预测能力,而是进一步调整模型生成的内容,使其更符合人类的期望——这些回答应该更具帮助性、安全性,并且更能准确反映用户的真实意图。
从历史角度来看,这篇论文具有极其重要的意义,因为它为现代ChatGPT的开发奠定了基础。
如今人们与ChatGPT相关的许多交互特性(如遵循指令、进行对话、妥善处理拒绝请求以及提供更安全的回答等),其实都可以直接追溯到这篇论文中提出的理念。
如果您想直接阅读原文,可以点击以下链接:利用人类反馈训练语言模型以遵循指令
下面是我们在这篇综述中将会涵盖的内容的简要图表:

目录:
先决条件
要想充分理解这些内容,最好已经对一些基础概念有所了解。
阅读本系列之前的文章会特别有帮助:
尽管GPT-4是在InstructGPT之后发布的,但阅读关于GPT-4的论文仍然很有帮助。这些文章能让我们更全面地了解对齐技术的发展历程,以及它们是如何在后续版本的GPT模型中与更强的推理能力和多模态功能相结合的。
此外,以下知识也会对你有所帮助:
-
对自然语言处理和大型语言模型有基本的了解
-
对基于Transformer的自回归模型有一个大致的认识
-
熟悉提示机制、少样本学习以及上下文学习相关概念
-
对强化学习和人类反馈系统有基本的了解
-
掌握机器学习的基本概念,如训练数据、微调、扩展性以及推理过程
-
对对齐机制、安全性以及AI行为控制相关概念有所了解
不过,你并不需要成为一名AI研究人员才能阅读这篇文章。
我会尽量用通俗易懂的方式进行解释,重点讲解InstructGPT是如何改变现代AI系统的,而不会陷入复杂的数学公式或学术术语中。
执行摘要
论文《通过人类反馈训练语言模型以使其遵循指令》标志着现代AI系统发展史上的一个重要转折点。OpenAI没有再去探讨如何让语言模型变得更大或更智能,而是转向了一个不同的问题:如何让这些模型真正为人类带来帮助?
这篇论文介绍了InstructGPT——这是一种经过微调的GPT-3版本,它通过一种名为基于人类反馈的强化学习(RLHF)的方法,使语言模型能够更准确地遵循人类的指令。
这篇论文的核心观点非常简单,但却极其重要:
规模更大的语言模型并不会自动成为更好的辅助工具。
即使是像GPT-3这样功能强大的模型,也仍然可能存在……
-
忽略指令
-
产生错误的理解或幻觉
-
生成有毒或带有偏见的输出结果
-
产生的回答在语言表达上可能很流畅,但对用户来说并无实际帮助
为了解决这个问题,OpenAI构建了一个多阶段的对齐系统:首先由人类给出理想的答案,然后对模型的输出结果进行评分,最后模型通过强化学习来学习这些人类的偏好。
这一方法彻底改变了现代人工智能的发展方向。
研究表明,对齐性与实用性往往比模型本身的规模更为重要。其中一个令人惊讶的发现是:尽管13亿参数规模的InstructGPT模型规模远小于最初的1750亿参数规模的GPT-3模型,但人类评估者更倾向于选择前者。
该研究还证明了InstructGPT在遵循指令、保证回答的真实性、减少有害内容、改善对话行为以及满足用户整体需求方面都取得了显著的进步。
从历史角度来看,这篇论文为现代对话式人工智能系统的发展奠定了基础。
GPT-3证明了语言模型确实可以从人类提供的提示中学习到知识。
后来的GPT-4进一步证明,通过扩大模型规模并引入多模态推理技术,可以使语言模型具备更强大的功能。
然而InstructGPT揭示了一个同样重要的道理:人工智能系统必须与人类的意图保持一致,才能真正成为实用的产品。
从很多方面来看,这篇论文标志着人类在语言建模技术、辅助系统的开发方向以及研究成果的实际应用方面取得了重大突破。
而这一系列发展最终促成了ChatGPT的出现。
核心问题
这篇论文最重要的观点之一是:单纯的语言建模并不能直接创造出实用的人工智能辅助系统。
在InstructGPT出现之前,像GPT-3这样的模型主要是基于一个简单的目标进行训练的:预测序列中的下一个单词或字符。
这个训练目标使得语言模型在生成流畅文本方面表现得非常出色,但也带来了一个严重的局限性——这些模型只学会了如何继续生成文本,而并不懂得如何帮助人类解决问题。
这一点后来成为现代人工智能对齐研究的重要出发点之一。
尽管GPT-3具备很强的能力,但它往往无法表现出一个可靠的人工智能助手应有的行为。虽然它能够生成流畅的文本,但并没有被专门训练来理解并执行用户的指令。
以下是一些例子,这些例子清楚地展示了GPT-3与InstructGPT在应对用户指令时的差异:


这些例子揭示了早期GPT系统的根本缺陷。GPT-3往往会继续执行输入指令中的内容,而不会完成用户真正要求它完成的任务。相比之下,InstructGPT会直接响应用户的指令。这种差异并非源于智能程度的高低,而是训练目标的不同。
GPT模型是在庞大的互联网规模数据集上训练出来的,其训练目标仅仅是预测接下来会出现什么文本。因此,这些模型被优化为能够生成合理、连贯的文本,但并不一定保证文本的真实性、安全性或实用性,也不一定会符合人类的需求。
这就导致了语言模型的能力与它们作为实用助手的实际表现之间存在巨大的差距。
例如,如果用户提出了有害的、具有误导性的或毫无意义的问题,模型可能会继续按照输入指令的内容进行响应,而不会意识到其中的问题。在很多情况下,这些模型更像是一个互联网文本生成工具,而不是可靠的辅助工具。
论文一再强调,仅仅依靠扩大模型的规模是无法解决这个问题的。
研究人员逐渐认识到,要想让模型表现出更好的行为,仅仅扩大规模是不够的。
模型还需要具备更强的指令执行能力、更能符合人类的意图、具有更高的安全性、更加真实地反映客观事实,并且需要根据真实用户的需求进行优化。
为什么GPT-3还不够
当GPT-3问世时,人们认为它在人工智能领域取得了巨大的进步。
该模型能够进行少样本学习、回答问题、总结文本、生成代码、翻译语言,甚至解决某些推理问题——而且这一切都不需要经过传统的微调训练。对许多研究人员来说,这是第一次看到真正具备通用性的语言模型。
然而,在实际使用中,GPT-3的表现往往并不像其基准测试结果所显示的那样可靠。
在实际应用中,使用GPT-3通常需要精心设计输入指令。即使是微小的措辞变化,也可能会显著影响模型的响应质量。有时模型会很好地执行指令,而有时则会完全忽略这些指令。
用户往往需要反复修改输入指令,才能得到自己想要的结果。
正是这种问题,成为了开发InstructGPT的核心动力。
OpenAI为此开始探索各种方法,以使模型的行为更加稳定、可预测,并且能更好地服务于用户。
InstructGPT:以遵循指令为目标的语言模型的诞生
InstructGPT的问世标志着大型语言模型发展史上的一个重大转折点。
在InstructGPT出现之前,语言模型的所有进展主要都体现在数据量、计算资源以及模型规模的扩大上。
此后,研究重点发生了转变——人们开始致力于开发那些能够更可靠地执行指令,并且行为符合用户真实需求的系统。
正是在这一背景下,InstructGPT引入了现代人工智能系统中最为重要的概念之一:基于人类反馈的强化学习技术。
OpenAI不再仅仅专注于优化模型以使其能够预测互联网上的文本内容,而是开始根据人类的实际需求来调整模型的行为。人类标注人员会对模型生成的输出进行评价,而这些评价结果直接被纳入训练流程中。
这一改变从根本上改变了语言模型的发展目标。
模型不再只是为了准确预测下一个输入词而进行训练,而是逐渐被优化为能够生成那些人类认为有用、安全且符合其意图的响应。
虽然这种区别听起来可能很微妙,但它实际上彻底改变了人工智能的发展方向。
InstructGPT将遵循指令的训练与基于人类偏好的优化相结合,从而创造出一种其行为可以通过反馈直接被调整的模型。
这种模型不再只是为了模仿互联网上的内容而进行训练,而是被设计成更像一个真正的助手。
RLHF技术流程:InstructGPT是如何学会像助手一样工作的
InstructGPT相关论文的核心内容是一种全新的训练流程,这种流程彻底改变了现代人工智能助手的开发方式。
RLHF技术的设计初衷并不是取代传统的语言模型预训练方法,而是将其作为其补充。
这篇论文提出了一种不同的思路:既然可以直接利用人类的偏好来训练模型,为什么还要仅仅依赖互联网上的文本数据进行训练呢?
正是这种思考方式促成了RLHF技术流程的诞生。后来,这种方法成为了现代对话式人工智能系统的标准组成部分。
论文中的图2尤为重要,因为它直观地展示了OpenAI所提出的这一完整训练流程。该系统并非依赖于单一的训练阶段,而是通过多个环节逐步利用人类反馈来塑造模型的行为。

来源: 利用人类反馈训练语言模型以使其能够执行指令(OpenAI,2022年)。
如上图所示,整个训练过程分为三个主要阶段。
第一阶段——监督式微调
<第一阶段从人类编写的示范案例开始。>
标记员会收到提示,并被要求写出理想的回答——也就是一个优秀的辅助系统应该给出的那种答案。这些示例就成了该模型最初的训练数据集。
在这个阶段,模型会学习到辅助系统-style回答的基本模式。
这仍然属于传统的监督学习,但其目标与标准的语言建模有所不同。该模型不再仅仅从网络文本中学习,而是通过观察那些被认为是“理想”的辅助系统行为来获取训练数据。
经过这个阶段的训练,最终会形成论文中提到的“监督微调模型”(SFT模型)。
虽然这样的训练已经使模型的表现有了显著提升,但OpenAI意识到一个重要事实:人类的偏好远比简单的“正确答案”要复杂得多。
对于同一个提示,往往存在多种可能的回答方式,但人类可能会更倾向于某些特定的答案。
这就引出了下一个训练阶段。
阶段2 — 奖励模型训练
在第二阶段,人类不再直接编写回答内容。
而是让模型为同一个提示生成多个答案,然后由人类标记员对这些答案按照优劣顺序进行排序。
对于某个特定的提示来说,有些回答可能更清晰,有些更准确,而有些则更为合适或安全。人类标记员会根据自己的偏好来对这些选项进行排序。
这些排序结果会被用来训练另一个名为“奖励模型”(RM)的神经网络。
这个模型会学习到一个极其重要的东西:哪些回答是人类更喜欢的。
换句话说,该系统将人类的偏好转化为一种可以被训练使用的奖励信号。
这一点成为了这篇论文中最重要的概念性突破之一。OpenAI并没有手动编写行为规则,而是让模型自己去模仿人类的判断方式。
奖励模型能够捕捉到人类偏好的规律,并将这些规律转化为训练信号。
这种奖励信号就成了最终训练阶段的基础。
阶段3 — PPO强化学习
最后一个阶段利用强化学习来优化语言模型,使其能够更好地符合人类的偏好。
具体来说,这篇论文采用了PPO(近端策略优化)这种常用于策略优化任务的强化学习算法。
在这个阶段,模型会生成各种回答,然后根据奖励模型的评分逐步调整自己的行为方式,以使得分尽可能高。
模型会逐渐倾向于那些能够获得更高分数的回答方式。
关键在于,这次的优化过程是针对人类偏好的表示方式进行学习的,而不仅仅是为了实现语言建模的目标。
根据论文的研究结果,这种强化学习流程显著提升了系统的指令执行能力以及用户对系统表现的满意度,同时也减少了有害或不安全的行为行为。
从很多角度来看,这一训练流程成为了现代对话式AI系统发展的蓝图。
有帮助、诚实且无害
作者们认为,评估语言模型时,不能仅仅关注其功能本身,还应该考察它们在与人类互动时的表现。
在当时,这种评价方式代表了研究人员在评估语言模型时思维方式的重大转变。
正因如此,这篇论文反复强调了一种以三个目标为核心的新评估理念:
-
有帮助
-
诚实
-
无害
这些理念成为了现代语言模型评估体系以及对话式人工智能系统发展的理论基础。
有帮助
第一个目标很明确:该模型必须真正能够帮助用户实现他们的需求。
在实际应用中,所谓“有帮助”,意味着模型能够清晰地遵循用户的指令、直接回答问题、提供相关信息,并且能够准确理解用户的意图。
这看起来很简单,但实际上它从根本上改变了模型的训练目标——模型不再仅仅追求语言表达的流畅性,而是要具备实际效用。
诚实
第二个目标是诚实。
大型语言模型最大的问题之一就是,它们经常会给出看似合理的答案,但实际上这些答案可能是错误的。这些模型可能会“幻想”出某些事实、编造参考资料,或者在面对不确定性时仍然表现得非常自信。
论文指出,一个有用的助手不仅应该听起来聪明,还应该诚实守信,在必要时能够承认自己的不确定之处。
这一点尤为重要,因为语言模型的设计目的本来就是生成看似合理的文本,而不是绝对真实的陈述。
因此,早期的模型有时会更注重文本的连贯性,而非准确性。
InstructGPT所采用的对齐训练方法试图通过人类的反馈和偏好优化来减少这种问题。人类评估者普遍更喜欢那些准确、透明且可靠的回答,而这些偏好会在模型的训练过程中逐渐影响其行为。
这篇论文并没有声称语言模型中的错误现象会完全消失,但确实标志着这是首次大规模地尝试从诚实性和可靠性角度来优化语言模型,而不仅仅关注文本生成的质量。
无害
第三个目标是无害性。
在互联网数据上训练的大型语言模型,难免会吸收其中那些有害、带有偏见或不安全的内容。如果没有相应的约束机制,这些模型就可能会生成危险的指令、攻击性的内容,或者采取具有欺骗性的行为。
论文明确指出了这一问题,并将安全性视为模型开发的重要核心要素。
通过强化学习与人类偏好排序相结合的训练方法,模型能够学会拒绝某些有害请求,避免生成有毒的内容,从而产生更安全的回应,在与人互动时表现得更加负责。这成为了现代对话式AI系统的核心特征之一。
该系统不再追求无限制的生成能力,而是开始注重实用性、安全性以及与人类价值观的一致性。
不过,这篇论文也如实指出了其中的局限性。
作者们承认,有害的输出、偏见以及不安全的行为仍然可能发生。模型与人类价值观之间的匹配并不完美,而人类价值观本身也是复杂且难以被普遍定义的。
但从历史的角度来看,这篇论文标志着安全性与一致性成为了核心的设计目标,而非次要考虑因素。
综上所述,这三项原则(实用性、诚实性、无害性)早已超越了单纯的训练目标,它们成为了ChatGPT时代AI系统的哲学基础。
早期的GPT相关研究主要探讨如何扩大智能体的规模,但InstructGPT则探索了一个更深层次的问题:如何让这种智能真正为人类所用。
人类反馈成为新的扩展因素
InstructGPT论文中最引人注目的观点之一是,它悄然改变了现代AI领域中“规模扩展”的含义。
多年来,语言模型的发展程度主要通过其规模大小来衡量。
GPT-1证明了预训练技术的有效性;GPT-2进一步表明,更大的模型能够展现出更强的泛化能力;而GPT-3则将这一理念推向了新的高度——它的参数数量达到了1750亿,并展示了出色的小样本学习能力。
从某种程度上来说,这种观点确实是正确的。更大的模型确实在推理、代码生成、语言理解、翻译以及泛化能力等方面表现得更好。
而正是在这里,人类反馈发挥了至关重要的作用。
OpenAI引入了一种新的训练流程,在这种流程中,人类的偏好直接决定了模型的行为。人工标记人员会对模型生成的答案进行评分、评估其质量,并引导系统产生人们真正认可的结果。
在很多方面,这种方式为AI系统的发展开辟了一个全新的维度:
-
扩展人类反馈的作用范围
-
优化偏好学习机制
-
完善模型与人类价值观的匹配过程
从历史的角度来看,这种转变使人们不再仅仅关注模型的规模大小,而是更加重视其行为质量。
InstructGPT专注于提升模型的实用性,而其结果也确实令人印象深刻。
根据论文中的数据,人类评估者往往更喜欢规模较小的、与人类价值观更匹配的模型,而不是最初的1750亿参数规模的GPT-3模型。
这一发现改变了整个行业对AI发展的认知。
它表明,改善模型的行为质量有时与扩大其规模同样重要。
正因如此,RLHF才成为了ChatGPT时代的重要理念之一。
在InstructGPT之后,现代AI系统的评估标准不再仅仅是基准测试分数、参数数量或规模曲线了。
人们越来越关注这些系统在实际应用中的实用性、对话质量、安全性、可靠性,以及它们与人类的交互效果。
这种变化从根本上改变了大型语言模型的未来发展方向。
为什么ChatGPT会在全球范围内迅速普及
当ChatGPT正式向公众推出时,人们的反应极为迅速,而且这种反应是人工智能行业前所未有的。
在短短几天内,就有数百万人开始使用它。开发者、学生、作家、研究人员、企业以及普通用户都突然觉得,他们与人工智能的互动方式已经完全不同了。
这一变化之所以如此重要,是因为先进的人工智能技术终于能够被普通用户所使用。事实上,在ChatGPT出现之前,那些基础的语言模型就已经具备了非常强大的功能。GPT-3能够撰写文章、回答问题、编写代码、总结文本,甚至还能完成一些令人印象深刻的任务;而GPT-4则进一步提升了这些模型的推理能力和多模态交互能力。
问题不再在于语言模型是否能够完成有用的任务,而在于人们是否能够自然地与它们进行互动。
ChatGPT将强大的语言模型功能与基于RLHF的对齐技术、对话式交互方式、更安全的行为表现以及用户友好的聊天界面结合在了一起。
之前的系统往往需要通过大量的试验来调整提示语,才能获得稳定的结果。用户必须仔细设计提示语,重新提出问题,或者处理那些奇怪的输出结果。这些模型有时会表现出色,但有时又会让人感到困惑。
ChatGPT彻底改变了这种使用体验。
得益于InstructGPT论文中提出的对齐技术,该系统在遵循指令、保持对话流畅性、理解用户意图以及做出合作性的回应方面表现得更加出色了——它的反应方式不再仅仅是纯粹的生成式回答,而是真正体现了与人交流时的自然感。
聊天界面本身也起到了至关重要的作用。
在ChatGPT出现之前,要与先进的人工智能系统进行互动,通常需要使用API、具备编程知识、通过反复试验来调整提示语,或者需要对相关技术有深入的了解。
而ChatGPT将这一切简化成了人们熟悉的聊天格式:用户只需自然地输入信息,系统就会做出相应的回应。
这个设计决策看似微不足道,但实际上它具有革命性的意义。它使得大型语言模型从研究工具转变成了消费品。
尽管还存在一些缺陷,但与之前的语言模型界面相比,ChatGPT确实显得更加可靠。
该系统的设计目的就是让人与它的交流方式更加自然、更加合作。
真正的突破并不在于人工智能变得更为智能,而在于它终于能够被人们实际使用。
正是这种可用性,使得大型语言模型从令人赞叹的研究成果,变成了在全球范围内被广泛采用的AI助手。
ChatGPT带来的界面革命
ChatGPT最重要的意义之一,就在于它改变了人类与计算机之间的互动方式。
在ChatGPT出现之前,那些强大的人工智能系统大多隐藏在API的背后、研究演示中、开发者工具里,或者复杂的提示语设置流程之中。
使用先进的语言模型通常需要相关的专业技术知识。开发人员不断尝试调整提示语的设计、API参数设置以及输入数据的结构,只为让模型能够产生可靠的结果。
即便像GPT-3这样强大的模型,对许多用户来说依然属于研究性质的工具。人们必须学会如何“与这些模型进行交流”。
在很多情况下,这种交互方式显得相当脆弱:哪怕只是词句表达上的微小变化,都可能彻底改变模型的响应质量。
然而ChatGPT几乎在一夜之间改变了这一状况。
它不再要求用户去适应人工智能,而是让人工智能能够更好地适应人类的需求。
自然对话成为了人们与人工智能交流的主要方式。
几十年来,人机交互主要依靠命令、菜单、搜索框、表单、编程语言以及专门的软件界面来实现。
但ChatGPT带来了全新的体验:用户只需用简单的语言表达自己的需求,系统就能理解并作出相应的响应。
这使得那些从未编写过代码、没有使用过API或没有接触过机器学习系统的人也能轻松使用人工智能。
从很多方面来看,ChatGPT将交互方式转变成了一种通用的计算接口。这一变化几乎影响了所有数字领域。
在教育领域,学生们开始利用对话式人工智能来理解复杂的概念、总结课程内容、练习语言技能,甚至获得类似辅导的帮助。
在编程领域,开发人员开始使用人工智能系统来进行代码调试、生成代码文档,以及学习新的开发框架。
最终,这种技术催生了可以直接集成到开发环境中的AI编程辅助工具。
在写作和内容创作方面,对话式人工智能成为了帮助人们激发创意、修改文本、整理文章结构、提升沟通效率的得力助手。
用户的搜索行为也发生了变化:他们不再满足于浏览链接列表,而是越来越期望获得直接的、基于对话式的回答。这种需求从根本上挑战了传统的搜索引擎交互模式。
在各种生产力工具中,人工智能系统不再仅仅被视为软件功能,而更像是能够协助用户完成工作的伙伴。
这种转变得益于对话式人工智能和交互设计技术的进步,这些技术使得人机对话变得更加自然、高效。
InstructGPT所引入的对齐技术,对于让这些对话式体验真正发挥作用起到了关键作用。
从历史的角度来看,这或许会成为GPT时代最重要的成果之一:以往的软件总是要求用户去学习如何使用各种界面,而ChatGPT则让计算技术开始朝着能够“学习人类需求”的方向发展。
基准测试与结果
我们之前已经讨论过,AI模型的改进并不在于其规模的扩大,而在于使其更加符合人类的使用习惯。
这是整篇论文的核心发现之一,它改变了众多研究人员对大型语言模型发展方向的认知。
在这项研究之前,人们普遍认为,扩大模型的规模是实现进步的关键途径——更大的模型、更多的参数、更强的计算能力以及更多的数据,而GPT-3似乎也印证了这一观点。确实,规模更大的模型在少样本学习、推理及泛化能力方面表现得更为出色。
但InstructGPT的研究为这一观点带来了不同的视角。研究者发现,相对规模较小的13亿参数模型InstructGPT,往往更受人类评估者的青睐,甚至超过了最初的175亿参数GPT-3模型。
这一结果具有重要意义:它表明,在某些情况下,“与用户需求的一致性”比“模型的规模大小”更为重要。
这一点后来成为了ChatGPT时代的重要理论依据之一。
根据这项研究,人类评估者一致认为InstructGPT提供的回答更加有用、准确、安全,且更符合用户的实际需求。
InstructGPT在多个关键领域都展现了显著的改进。
其中一个重要的改进体现在对指令的遵守能力上。早期的GPT模型常常会忽略用户给出的指令,偏离讨论主题,或者生成听起来流畅但实际上无法解决用户问题的回答;而InstructGPT则表现得像一个乐于合作的助手,能够更可靠地执行用户的指令。
该研究还指出,InstructGPT在回答的真实性方面也有了提升。大型语言模型历来容易产生虚假信息,但通过RLHF和偏好优化技术,InstructGPT产生的答案被人类评估为更加真实可信。
另一个重要的改进涉及模型的有害输出问题。研究者通过对毒性测试进行评估,发现InstructGPT生成的回答比早期的GPT模型要少得多,因此其安全性也得到了提升。
这些发现之所以具有历史意义,是因为它们彻底改变了业界对“更好的AI”应该具备什么特性的认知。
在InstructGPT出现之前,人们主要通过基准测试分数、模型规模和参数数量来衡量AI模型的优劣。
但InstructGPT的出现之后,研究者们开始更加关注模型的可用性、安全性、与用户需求的一致性以及用户体验等方面。
这标志着人工智能发展理念的一次重大转变。
真实性与虚假信息
对于语言模型而言,一个主要挑战在于:虽然它们能够生成流畅自然的回答,但这些回答并不一定都是真实的。
这种现象现在被普遍称为“虚假信息”或“幻觉性输出”。
虚假信息的表现形式多种多样,包括编造事实、引用不存在的参考资料、给出错误的解释,或是那些缺乏事实依据却显得非常自信的回答。
由于这些回答听起来很自然流畅,用户往往很难察觉到其中的错误。因此,InstructGPT的研究将这一问题视为一个严重的问题,而不仅仅是一个小缺陷。作者指出,语言模型的优化目标是提升文本的“合理性”,而非确保其内容的绝对真实性。这一区别至关重要:一个语言模型虽然能够生成表面上看似正确的文本,但这些文本实际上可能并不准确。正因如此,这篇论文特别强调了语言模型的真实性与事实可靠性。通过强化学习与人类偏好优化,InstructGPT被训练成能够生成那些被人类认为更准确、更值得信赖的回答。人类评估者通常更青睐那些能如实反映自身不确定性、且不太可能包含误导性信息的回复。该论文还利用诸如TruthfulQA这样的真实性评估工具对InstructGPT进行了测试,结果发现,与早期的GPT系统相比,这种经过优化的模型确实取得了显著的进步。然而,论文也谨慎地指出,并没有因为这些优化就意味着语言模型的错误完全消失了——它们仍然可能犯推理错误、生成虚假信息、误解用户指令,或者给出过于自信的回答。这一细节非常重要:论文并没有声称强化学习与人类偏好优化彻底解决了语言模型的真实性问题,而是强调这种优化改善了模型的行为表现,而非使其变得完美无缺。随着ChatGPT以及后来的GPT-4系统在全球范围内获得了数百万用户的使用,这一区别变得越来越重要。这些模型确实变得更有用、更真实、也更符合人类的期望,但它们本质上仍然属于概率性语言模型,而非能够保证提供绝对正确信息的工具。在很多方面,InstructGPT的研究标志着人们开始大规模地努力让人工智能系统不仅具备智能能力,还能够具备足够的可信度,从而适用于现实世界中与人类的交互。
安全性与拒绝行为
随着语言模型能力的不断增强,研究人员意识到,安全性已经成为这些模型在实际应用中需要重点关注的问题。一个能够大规模生成人类语言的模型,同样也可能生成有害指令、传播错误信息,甚至被恶意利用来实施危险行为。InstructGPT论文非常重视这些风险,并将“行为优化”视为负责任地部署大型语言模型的必要环节。通过强化学习与人类偏好优化,InstructGPT在拒绝不当请求方面取得了显著改进。早期的GPT系统往往试图回答所有类型的问题,因此它们经常会回应那些不安全的指令要求,而无法正确判断何时应该拒绝这些请求。InstructGPT改变了这一状况——在人类的反馈和偏好引导下,该模型学会了某些请求不应该被直接回应。人类评估者一致认为,更安全的拒绝行为、对有害指令的明确回绝,以及避免产生危险或有害内容的输出,才是更为可取的做法。这样一来,这些模型就能够在面对不安全请求时更加果断地予以拒绝,有效防止错误信息的传播,并在交互过程中表现得更加谨慎。该论文还通过与安全性相关的评估指标来分析模型在降低毒性方面的表现,结果表明:与早期的GPT系统相比,这些经过优化的模型通常会产生更少有害输出。
另一个重要问题是有害内容的过滤。大型语言模型从海量的互联网数据集中吸收各种模式,而这些数据集中不可避免地包含带有偏见的言论、错误信息、不安全的指令以及有害行为。
如果缺乏相应的校准机制,这些模型很可能会轻易地复制这些不良模式。
RLHF作为一种校正机制,被应用于预训练之后的模型中。它不仅让模型模仿互联网上的文本,还进一步优化模型的响应方式,使其更符合人类认为安全、恰当的标准。
当然,这篇论文也客观地指出了该技术存在的局限性。
作者们承认,当前的校准机制还不够完善,不安全的输出仍然可能发生。模型也可能容易受到对抗性提示的影响,或者被试图绕过安全机制的攻击所利用(后来这种现象被广泛称为“越狱”行为)。
这是一个非常重要的要点:校准机制可以降低风险,但并不能彻底消除风险。
从历史的角度来看,这一认识对未来大规模人工智能的应用具有极其重要的意义。
在很多方面,《InstructGPT》这篇论文标志着现代人工智能安全工程在旗舰语言模型领域中的开端。
《InstructGPT》首次提出了大规模行为校准的概念,而GPT-4则通过红队测试、对抗性评估、部署监控以及更完善的安全评估流程,进一步发展了这一技术。
因此,这篇论文成为了早期生成式语言模型与后来在GPT-4时代出现的、更加注重安全性的人工智能系统之间的重要桥梁。
局限性
《InstructGPT》这篇论文的一个显著优点在于,它并没有将行为校准视为一个已经解决的问题。
尽管实验结果令人印象深刻,但作者们依然谨慎且坦诚地指出了该系统存在的不足与风险。
这种平衡非常重要,因为论文并没有声称RLHF能够创造出完美的人工智能系统。作者们始终将行为校准视为一项正在进行中的工作,而非已经完成的解决方案。
一个主要的局限性在于,这些模型仍然会出现幻觉现象。
论文指出,尽管行为校准机制有所改进,但幻觉问题依然是一个严重的挑战。
RLHF确实提高了模型的真实性及对指令的遵从程度,但它并没有从根本上改变语言模型的概率性本质。该系统仍然是在预测可能出现的文本模式,而非验证客观事实。
另一个重要问题是奖励机制被滥用的问题。
由于模型是针对学习到的奖励信号进行优化的,因此它有时会找到一些能够最大化奖励的捷径,而这些方法并不会真正提升模型的推理能力或理解力。换句话说,模型可能会学会一些表面上看似符合评估标准的行为,但实际上仍然隐藏着更深层次的问题。
这在更广泛的强化学习系统中都是一个普遍存在的问题。
论文还提到了在ChatGPT时代广泛讨论的另外两个问题:过度拒绝行为和历史意义
他们关注的是系统的可用性、对话质量、安全性、可靠性,以及该系统是否真的能够有效地帮助他们。 这就是为什么ChatGPT给公众带来了如此不同的体验。虽然底层的语言模型技术非常重要,但真正的突破在于这些技术是如何被转化为实用的人类使用体验的。 它的界面变得更加适合进行对话交流;系统也变得更愿意与用户合作;人工智能更能理解用户的真实意图。 这种变化从根本上改变了公众对人工智能的看法。 在ChatGPT出现之前,大多数人认为人工智能只是用于研究的软件、技术演示工具,或是专家们使用的专用工具。 但ChatGPT问世后,数以百万计的人开始每天与人工智能系统进行对话式的互动。 而这一点确实改变了一切。 早期的GPT相关研究主要关注的是如何扩大这些模型的规模;而InstructGPT则提出了另一个不同的问题:我们该如何将这些系统安全地应用到现实世界中呢? 这一转变催生了许多全新的研究和工程领域,包括强化学习与人类反馈结合的训练方法、系统安全性优化措施、系统的拒绝行为机制、对抗性测试技术、政策制定框架,以及大规模的人类反馈收集系统。 从很多角度来看,ChatGPT时代的真正开端,正是研究人员意识到:构建强大的语言模型仅仅只是解决问题的一部分而已。 更艰巨的任务在于如何让这些系统具备足够的可靠性,以便在全球范围内被人类广泛使用。 这也解释了为什么后来的AI系统会更加重视安全性、系统与用户意图的匹配程度、实际应用中的可靠性等问题。 业界不再仅仅为了撰写研究论文而开发语言模型,而是致力于打造真正能在现实世界中运行的AI系统。而InstructGPT这篇论文,正是这一变革过程中最重要的转折点之一。 从GPT-3到ChatGPT的演变,所代表的远不止是模型性能的简单提升。 它改变了整个人工智能行业所追求的核心目标。 在GPT-3时代,人们关注的主要问题是:“语言模型能否直接根据提示来学习相应的任务?” 而这正是GPT-3所带来的突破。 但ChatGPT时代的到来带来了完全不同的挑战:问题不再仅仅是“模型能否完成任务”,而是“人类是否真的可以每天信任并使用这些系统?” 这种转变确实改变了一切。 当数以百万计的人开始直接与人工智能系统进行互动时,仅仅拥有高智商已经远远不够了。用户需要的是那些易于理解、可靠、安全、适合对话交流,并且符合人类期望的系统。讨论:真正的转变
这种转变从根本上改变了人工智能的发展方向。
在ChatGPT出现之后,成功的标准不再仅仅取决于基准测试分数、参数数量或扩展能力。
评价一个模型是否成功,越来越要看它的匹配度、对话质量、安全性以及在实际应用中的可用性。
这也解释了为什么匹配度研究突然成为现代人工智能系统的核心所在。
GPT-3证明了模型可以从提示中学习知识;而ChatGPT则表明人类需要那些能够协同工作的模型。
这才是真正的变革所在。
这一转变最终可能会成为人工智能发展史上最重要的转折点之一。
与GPT-4的关联
关于GPT-4,最重要的一点就是它并非凭空出现。
它是建立在InstructGPT提出的匹配度理念基础之上,并通过ChatGPT的大规模应用经验得到了进一步完善。
人们常常从推理能力、多模态功能以及基准测试成绩等方面来讨论GPT-4。
但所有这些改进的背后,还有一个同样重要的因素:匹配度处理流程。
如果没有InstructGPT论文中提出的那些技术,GPT-4作为实际应用中的辅助工具,其可用性可能会大打折扣。
这一区别至关重要。
GPT-4所采用的许多匹配度技术,其实都可以追溯到InstructGPT提出的理念,包括强化学习驱动的反馈优化、指令调整机制、对话式匹配系统、更安全的拒绝策略以及人类偏好优化功能。
而ChatGPT则成为了这些理念的大规模应用试验场。
数百万用户的实际使用体验揭示了该模型存在的各种问题,包括幻觉现象、安全漏洞以及更广泛的可用性缺陷。
这些实践经验为后续的开发工作提供了极其宝贵的参考。
当GPT-4问世时,OpenAI已经不再只是在训练更大的语言模型了。它正在构建一个由强化学习驱动的反馈机制、人类反馈、安全设计、对抗性测试以及实际应用体验共同塑造的大型对话系统。
正因如此,GPT-4与早期的GPT模型有着本质上的不同。
从许多角度来看,GPT-4代表了两个关键理念的融合:模型的扩展能力与匹配度的优化。
-
GPT-3证明了语言模型可以从提示中学习任务。
-
InstructGPT证明了模型可以通过人类反馈来得到优化。
-
ChatGPT证明了具备良好匹配度的对话式AI系统能够在全球范围内得到广泛应用。
-
GPT-4将所有这些理念结合在一起,打造出了一个功能更为强大的多模态系统。
这种历史性的发展进程非常重要,因为它表明现代人工智能系统的诞生并非仅仅依靠模型的规模扩展,而是智能技术、匹配度处理机制、交互设计以及实际应用经验共同作用的结果。
InstructGPT论文成为了让GPT-4成为可能的关键基础之一。
GPT-3与InstructGPT、ChatGPT和GPT-4:主要区别
到目前为止,我们已经分别讨论了GPT-3、InstructGPT、ChatGPT和GPT-4。但将它们放在一起进行比较也会很有帮助。
尽管这些系统之间存在密切的联系,但每一项都在现代人工智能的发展历程中带来了不同的变革。
GPT-3侧重于通过扩大规模来提升能力;InstructGPT则通过人类反馈来实现指令与模型的匹配;ChatGPT注重对话式的可用性;而GPT-4则将这些理念与更强的推理能力和多模态功能结合起来。
下表总结了它们之间的主要区别,并说明了每一代系统是如何在前一代的基础上进行发展的。
|
方面 |
GPT-3 |
InstructGPT |
ChatGPT |
GPT-4 |
|
核心理念 |
大规模语言模型,支持少样本学习和上下文相关学习 |
|||
|
主要目标 |
通过大规模预训练来提升能力 |
|||
|
训练目标 |
从海量互联网文本数据中预测下一个输出词 |
|||
|
匹配重点 |
最小程度的显式匹配 |
|||
|
RLHF的应用 |
||||
|
人类反馈的作用 |
作用较为有限 |
|||
|
在当时来说,其推理能力已经相当出色 |
基础能力相似,但在行为表现上有所改进 | |||
|
仅支持文本处理 |
||||
|
具备了较强的代码生成能力 |
||||
|
2048个标记的上下文窗口 |
||||
|
1750亿个参数 |
GPT-3模型的微调版本 |
基于GPT-3.5/GPT-4架构开发 |
||
|
大规模的互联网文本数据集 |
GPT-3的预训练数据,以及人类提供的示范和评分信息 |
|||
|
通过扩大规模来实现上下文相关学习 |
||||
|
出现了显著的少样本学习能力 |
||||
从GPT-1到GPT-4:现代AI系统与发展历程的时间线
在结束之前,我们有必要退一步,从更宏观的角度来看待这一发展过程。
InstructGPT论文的出现并非孤立事件。它是整个进化进程的一部分——这一进程将GPT模型从以研究为目的的语言模型,转变为如今我们所使用的对话式AI系统。
每一代新模型的出现都带来了新的理念,推动了该领域的发展。
GPT-1引入了大规模预训练技术;GPT-2展示了零样本学习能力;GPT-3普及了提示引导与上下文学习机制;而InstructGPT则通过人类反馈实现了模型与用户意图的匹配。ChatGPT则通过对话界面将这些技术应用到了数百万用户手中;最终,GPT-4将这种匹配机制与更强的推理能力及多模态交互功能结合起来。
以下时间线总结了那些塑造现代AI发展历程的关键转折点。

|
年份 |
系统名称 |
关键发展点 |
变化内容 |
相关论文/版本发布 |
历史意义 |
|
2018年 |
GPT-1 |
预训练+微调时代 |
首次采用Transformer架构进行生成式预训练,随后再进行监督微调 |
通过生成式预训练提升语言理解能力 |
开启了现代大规模自然语言处理预训练模式 |
|
2019年 |
GPT-2 |
零样本语言建模时代 |
证明大型语言模型无需针对具体任务进行微调即可完成多种任务 |
语言模型本质上是无监督的多任务学习工具 |
推动AI技术向通用型生成模型方向发展 |
|
2020年 |
GPT-3 |
上下文学习时代 |
仅依靠提示信息,就实现了小样本、单次样本及零样本学习 |
语言模型具备小样本学习能力 |
使提示引导成为AI系统的核心交互方式 |
|
2022年3月 |
InstructGPT |
模型匹配与强化学习时代 |
引入基于人类反馈的强化学习机制,使模型行为符合用户意图 |
将AI发展重点从纯粹的技术能力转向匹配效果与实用性 |
|
|
2022年11月 |
GPT-3.5 / ChatGPT |
对话式AI时代 |
将GPT-3.5与强化学习及聊天交互功能结合,实现公开应用 |
基于GPT-3.5系列推出的ChatGPT正式上线 |
使大语言模型成为全球广泛使用的对话式辅助工具 |
|
2023年 |
GPT-4 |
多模态匹配基础模型时代 |
将多模态匹配技术应用于文本和图像分析,提升了系统的可靠性和安全性 |
GPT-4技术报告 |
标志着现代可部署的多模态AI系统时代的到来 |
|
2023年至今 |
GPT-4 + ChatGPT生态体系 |
AI辅助工具基础设施时代 |
AI系统已发展为涵盖编码、学习、生产力提升、推理及多模态交互的综合性工具 |
GPT-4应用生态体系 |
将AI技术从研究产品转变为全球性的基础设施平台 |
最终见解
当人们回顾现代人工智能的发展历程时,他们往往会关注那些模型规模变得更大、功能变得更加强大的时刻。但GPT系列的故事并不仅仅关乎规模的大小,它还讲述了如何让这种智能真正发挥作用的问题。
GPT-1证明了语言模型能够在被应用于特定任务之前,从大量文本中学习到极其丰富的信息。
GPT-2进一步拓展了这一概念,揭示出规模本身就能够催生新的功能。
GPT-3将这个领域带入了全新的领域,它证明了一个模型仅仅通过响应提示和示例,就能完成各种各样的任务。
有那么一刻,人们似乎认为规模的扩大就是解决一切问题的关键。
然而InstructGPT的出现揭示了另一个不同的挑战。
问题不再在于模型是否能够生成文本、回答问题或完成任务——因为这些模型的能力已经变得非常强大了。
真正的问题是:人们是否真的可以信赖它们?它们能否始终如一地按照指令行事?它们的响应方式是否能帮助用户解决问题?它们能否超越单纯的预测工具,成为更有价值的存在?
而这正是InstructGPT所取得的突破所在。
这篇论文并没有仅仅专注于让模型变得更聪明,而是着重于让它们的行为更加符合人类的需求。
人类的反馈被纳入到了训练过程中。
“人类与模型的协同性”这一概念从一项研究课题变成了核心设计原则。对于人们来说,改善人类与人工智能之间的关系,已经与提升模型的基本功能同样重要了。
这种转变的影响远远超出了单篇论文的范围。
它为ChatGPT的出现奠定了基础,让数百万人认识到了对话式人工智能的强大之处。如今,人们与先进的语言模型进行交互,不再需要复杂的API、专业的研究知识或精心设计的提示语;人们只需提出问题、寻求建议、探讨想法,就能通过自然的对话学到新的东西。
这一变化使得人工智能从一项研究成果转变成了被广泛使用的实用工具。
后来的GPT-4在这一基础上进行了进一步发展,它结合了更强的推理能力和更广泛的功能范围,并延续了InstructGPT所提出的协同性设计理念。但到了那个时候,整个行业已经认识到了一个重要的道理:仅仅拥有强大的功能是不够的,智能必须具备实际应用价值。
回顾起来,InstructGPT这篇论文的真正意义并不在于它引入了一种新的训练方法,而在于它帮助人们重新定义了现代人工智能的发展目标。
未来的挑战不再仅仅是开发能够生成文本的系统,而是打造出人类可以与之协作、从中学习并值得信赖的系统。
而这种转变,或许正是定义这个人工智能时代的关键所在。


