谷歌的研究人员提出了一种适用于大型语言模型的贝叶斯教学方法

谷歌的研究人员提出了一种训练方法，该方法通过让大型语言模型学习一个最优的贝叶斯系统的预测结果，从而教会它们模仿贝叶斯的推理方式。这种训练方法旨在帮助大型语言模型实现类似贝叶斯的推理功能。该方法的重点在于改进模型在多步骤交互过程中获取新信息后更新自身信念的方式。

这项研究探讨了语言模型在与用户长期互动的过程中是如何调整自身的信念的。在许多实际应用场景中，比如推荐系统，模型需要根据不断出现的新信息逐步推断用户的偏好。贝叶斯推理为根据新证据更新概率提供了数学框架。研究人员调查了语言模型的行为是否与贝叶斯信念更新机制一致，并探索了能够改善这种行为的训练方法。

为了验证这一假设，研究团队设计了一个模拟的航班推荐任务。在实验中，模型与一个模拟用户进行了五轮互动。每一轮中，系统会向用户展示三个基于出发时间、飞行时长、中途停留次数及价格等因素筛选出的航班选项。每个模拟用户对这些选项都有特定的偏好。每次推荐后，用户会告知系统所选选项是否正确，并透露自己真正想要的航班。系统需要利用这些反馈来优化未来的推荐结果。

研究人员将几种不同的语言模型与一个贝叶斯助手进行了对比。这个贝叶斯助手会维护一个关于用户可能偏好的概率分布，并在每次交互后使用贝叶斯定理来更新这一概率分布。实验结果显示，贝叶斯助手在选择正确选项方面的准确率达到了约81%，而语言模型的表现则较差，在第一次互动之后它们的表现几乎没有改善，这表明它们并没有有效地更新自己对用户偏好的估计。

随后，研究团队测试了一种名为“贝叶斯教学”的训练方法。在这种方法中，模型不仅会学习正确的推荐结果，还会尝试模仿贝叶斯助手在模拟交互过程中的预测行为。在实验的初期阶段，由于对用户偏好缺乏了解，贝叶斯助手有时也会给出错误的推荐建议，但其决策过程仍然体现了基于现有证据进行的概率推理。

下图展示了在经过用户与贝叶斯助手或“预言机”交互后的微调训练后，Gemma和Qwen这两种语言模型的推荐准确率变化情况。

监督式微调所使用的训练数据由用户与贝叶斯助手之间的模拟对话组成。为了进行对比，研究人员还测试了另一种方法：在这种方法中，模型从总是选择正确选项的助手那里学习，因为该助手对用户的偏好了如指掌。

这两种微调方法都提升了模型的性能，但采用贝叶斯教学方法得到的结果更为理想。使用这种方法训练出的模型所做出的预测与贝叶斯助手的预测结果更为接近，并且在多轮交互中表现出了更显著的进步；这些训练有素的模型在评估用户选择时也与贝叶斯系统的判断结果更加一致。

对于谷歌研究院发布的这篇研究论文，公众的反应总体上是积极的，评论者们普遍认为这种方法显著提升了大型语言模型的概率推理能力及其多轮交互适应能力。

软件开发者Yann Kronberg评论道：

人们常常讨论推理基准测试，但这项研究实际上关注的是信念更新机制。我们知道，大多数大型语言模型在接收到新信息后并不能很好地调整自己的内部假设，因此@GoogleResearch提出的这种让它们学习近似贝叶斯推理的方法，对于那些需要长期运行的智能体来说意义重大。

也有一些人质疑，为什么在使用强化学习来训练模型以近似贝叶斯推理时，研究人员却选择了监督式微调这种方法。

研究者Aidan Li指出：

为什么作者选择使用监督式微调而不是强化学习来训练模型以近似概率推理呢？实际上，对于大型语言模型来说，强化学习与概率推理之间存在着很多关联。也许是我忽略了某些细节，但强化学习似乎才是更合理的选择。

研究人员将这种方法称为一种模型蒸馏技术，在这种技术中，神经网络会学习模仿那些能够实现贝叶斯推理的符号系统的行为。研究结果表明，语言模型确实可以通过训练后的优化过程掌握概率推理能力，从而在序列交互中采取更优的决策策略。