虽然实验是不可或缺的,但传统的A/B测试往往耗时过长且成本过高。根据DoorDash的工程师Caixia Huang和Alex Weinstein的说法,为了克服这些限制,他们采用了“多臂老虎机”方法来进行优化实验。
在进行实验时,组织需要尽量减少因向用户群体中的一部分用户展示效果较差的选项而导致的机会成本或遗憾。传统的A/B测试依赖于固定的流量分配方式和预先确定的样本大小,这些参数在整个实验过程中保持不变。因此,即使某个选项在早期就表现出色,实验仍然会持续进行,直到达到预定的停止条件为止。更糟糕的是,随着同时进行的实验数量增加,机会成本也会随之上升,这促使团队不得不依次进行实验以减少遗憾,但这会导致实验周期变得非常漫长。
而“多臂老虎机”方法则提供了一种基于性能来动态调整流量的方式,从而加速学习过程并减少浪费。这种方法通过反复选择多个选项来实现,而这些选项的属性只是部分已知,随着实验的进行以及更多数据的收集,可以选择出更好的方案。
对于我们的目的来说,这种策略可以根据实验中获得的反馈来调整实验流量,使其集中在表现较好的选项中。其核心思想是,自动化的多臂老虎机代理会从多个选项中不断选择最优解,同时利用用户的反馈来改进选择方案。
这种策略能够实现探索与利用之间的平衡:既能够了解所有候选方案,又能优先选择表现最好的方案,直到找到最佳解决方案。
据Huang和Weinstein所说,多臂老虎机方法有助于降低实验的成本,使得能够快速评估多种不同的方案。
在DoorDash的多臂老虎机方法中,最核心的方法是Thompson采样法,这是一种贝叶斯算法,以其强大的性能和对延迟反馈的鲁棒性而闻名。在极端情况下,该算法会从后验概率分布中抽样,以决定如何分配资源,并在新的数据出现时更新预期收益,为下一个决策周期做好准备。在每个决策周期中,都会使用预期收益来决定选择的方案。
不过,采用多臂老虎机方法并非没有挑战。具体来说,它使得对那些不在奖励函数中的指标的推断变得更加困难,这就促使团队选择更复杂的奖励指标来获取尽可能多的信息。相比之下,传统的A/B测试则可以在实验结束后立即分析任何指标。
此外,由于多臂老虎机方法调整资源的力度较大,可能会导致同一用户多次使用同一个功能时出现不一致的用户体验。DoorDash计划通过采用上下文相关的多臂老虎机方法来解决这个问题,同时利用贝叶斯优化技术,实现更加稳定的用户分配,从而提高整体用户体验。
“多臂老虎机”这个概念源自概率论和机器学习领域。它用投币机的类比来描述这个问题:玩家面对着多个投币机,必须决定何时、何地、以何种顺序尝试不同的投币机。