在 DoorDash 平台上，通过多臂老虎机技术来提升 A/B 测试的效果

虽然实验是不可或缺的，但传统的A/B测试可能会过于耗时且成本高昂。根据DoorDash的工程师Caixia Huang和Alex Weinstein的说法，为了克服这些限制，他们采用了“多臂老虎机”的方法来进行优化实验。

在进行实验时，组织需要尽量减少因为向用户群体中的一部分用户展示效果较差的选项而产生的机会成本或遗憾。传统的A/B测试依赖于固定的流量分配方式和预先确定的样本大小，这些因素在整个实验过程中保持不变。因此，即使某个选项在早期就能取得明显的好成绩，实验仍然会继续进行，直到达到预定的停止条件为止。更糟糕的是，随着同时进行的实验数量增加，机会成本也会随之上升，这促使团队不得不依次进行实验以减少遗憾，但这会导致实验周期显著延长。

而“多臂老虎机”方法则提供了一种基于性能来动态调整流量的方式，从而加速学习过程并减少浪费。这种方法通过反复选择多个选项来实现这一点，而这些选项的属性只是部分已知的。随着实验的进行以及更多数据的收集，这些选择的准确性会逐渐提高。

对于我们的目的来说，这种策略可以根据实验过程中的反馈来调整实验流量，使其集中在那些表现更好的选项中。其核心思想是，自动化的多臂老虎机算法会不断从多个选项中选择最佳方案，同时利用用户的反馈来改进决策过程。

这种策略能够平衡“探索”与“利用”之间的关系，即既了解所有候选选项，又优先选择那些表现最好的选项，直到找到最佳解决方案。

据Huang和Weinstein称，多臂老虎机方法有助于降低实验的成本，使得人们能够快速评估各种不同的想法。

DoorDash的多臂老虎机方法的核心是一种贝叶斯算法，该算法以其强大的性能和对延迟反馈的适应能力而闻名。在极端情况下，该算法会从后验概率分布中采样，以决定如何分配资源，并根据新数据更新期望收益。在每个决策周期内，都会使用预期收益来决定选择哪个选项。

不过，采用多臂老虎机方法并非没有挑战性。具体来说，它使得对那些不在奖励函数中的指标的推断变得更加困难，这就促使团队选择更复杂的奖励指标来获取尽可能多的信息。相比之下，传统的A/B测试则可以在实验结束后立即分析任何指标。

此外，由于多臂老虎机方法调整资源的效率更高，可能会导致同一用户多次使用同一个功能时出现不一致的用户体验。DoorDash计划通过采用“上下文老虎机”方法来解决这个问题，利用贝叶斯优化技术，并实现“粘性”的用户分配，从而提高整体用户体验。

“多臂老虎机”的概念源自概率论和机器学习领域。它用老虎机的类比来描述这个问题：玩家面对着多个老虎机，必须决定何时、何地、以何种顺序尝试不同的老虎机。