来源:谷歌DeepMind博客

ATLAS通过明确地将训练语言的数量与模型规模及数据量纳入建模范围,拓展了相关的尺度律。该研究量化了“多语言带来的负面影响”:当在固定容量的模型中添加更多语言时,每种语言的训练效果都会下降。实证结果表明,若要保持性能不变,将语言数量增加一倍,模型规模需要增加约1.18倍,总训练数据量也需要增加1.66倍;而跨语言知识迁移带来的积极效应可以在一定程度上弥补这种因语言数量增加而导致的数据量减少问题。

该研究还探讨了在何种情况下,从头开始预训练多语言模型比对现有的多语言模型进行微调更为有效。实验结果显示,在计算资源有限的情况下,微调方式更具效率;而当训练数据和计算能力超过某种与语言相关的阈值后,预训练方法才会变得更有优势。对于参数数量为20亿的模型而言,这种转变通常发生在训练数据量介于1440亿到2830亿个标记之间,这一结论为根据现有资源选择合适的训练方法提供了实用依据。

ATLAS的发布引发了关于多语言模型架构的进一步讨论。一位X平台的用户发表评论道:

与其使用来自所有语言的冗余数据来训练一个庞大的模型,那么纯粹用于翻译的多语言模型需要达到多大规模呢?这样的模型与基础模型相比,其规模又会缩小多少呢?

虽然ATLAS并没有直接回答这个问题,但其关于知识迁移效果和尺度律的分析为探索模块化或专门化的多语言模型设计提供了定量依据。

Comments are closed.