为了提高Dropbox Dash生成的回答的相关性,Dropbox的工程师们开始利用大语言模型来辅助人工标注工作,因为人工标注在确定应使用哪些文档来生成答案方面起着至关重要的作用。他们的这种方法为任何基于检索增强生成技术的系统提供了有益的参考。
正如Dropbox的首席工程师Dmitriy Meyerzon所解释的那样,在那些从庞大的文档库中筛选出相关内容后再传递给大语言模型的系统中,文档检索的质量才是决定最终效果的关键因素:
由于企业搜索索引中存储了数百万甚至数十亿份文档,因此Dash只能将其中一小部分文档传递给大语言模型。这样一来,搜索排序的质量以及用于训练排序模型的标注数据的质量,就直接决定了最终生成答案的质量。
由此可见,搜索排序模型的质量对生成的答案有着直接影响。Dash使用的排序模型是通过监督学习技术进行训练的,在这种训练过程中,查询文档对被标记为根据每份文档满足特定查询需求的程度来评估其相关性。这种方法的主要挑战在于如何生成大量高质量的相关性标注数据。
为了弥补完全依赖人工标注所带来的成本高昂、效率低下以及结果不一致等问题,Dropbox引入了一种互补的方法:让大语言模型大规模地生成相关性判断结果。这种方法更加经济高效、结果也更为一致,并且能够轻松应用于处理大量的文档数据。然而,大语言模型并非完美的评估工具,因此在将它们的判断结果用于训练之前,必须对其进行进一步的验证。
实际上,利用大语言模型进行相关性评估需要一个结合自动化处理与人工审核的有序流程。
这种被称为“人工校准的大语言模型标注”方法其实非常简单:首先由人类对一小部分高质量的数据集进行标注,然后利用这些标注结果来校准大语言模型的评估机制。之后,大语言模型就可以生成成千上万甚至数百万条标注数据,从而使人类的工作效率提高大约100倍。需要注意的是,大语言模型并不能取代排序系统,因为直接在查询时使用它们进行排序会显得过于缓慢,而且也会受到上下文信息的限制。
评估环节主要包括将大语言模型生成的相关性评分与针对训练集之外的一组测试数据对进行的人工评估结果进行对比。评估的重点也在于那些最能体现问题所在的情况,也就是那些大语言模型的判断结果与用户行为相矛盾的情形——例如,用户会点击那些被大语言模型评为低相关性的文档,或者跳过那些被评定为高相关性的文档,这些情况能为训练过程提供最有价值的信息。
需要特别注意的是,上下文信息在判断相关性时往往起着至关重要的作用。例如,在Dropbox中,“diet sprite”这个术语实际上指的是一种内部使用的性能监控工具,而不是某种饮料。为了准确处理这类情况,大语言模型被允许进行额外的搜索,以便获取相关的上下文信息并理解内部的专用术语,这样就能显著提高标注的准确性。
根据他们使用 Dropbox Dash 所获得的经验,Meyerzon 表示,这种方法能够让大语言模型在大规模应用中持续增强人类的判断能力,从而证明这是一种有效的方式来改进问答系统。