|
Post by papri0404 on May 19, 2024 3:57:43 GMT
它的训练数据集比 的大倍,并且包含倍多的代码。 为了应对多语言场景, %是高质量的非英语数据,涵盖了多种语言。 同时,为了让训练数据具有足够高的质量,开发了一系列数据过滤管道。 这些管道包括使用了启发式过滤器、过滤器、语义去重方法和文本分类器,用来预测数据质量。 在这个过程中一个有意思的点就是—— 前几代的 在识别高质量数据方面居然出奇得好,因此,使用 来生成了用于训练 的文本质量分类器的训练数据。 此外,为了评估在最终的预训练数据集中混合来自不同来源的数 伯利兹电子邮件列表 据的最佳方式,还进行了大量实验。 最终,就能够选择一个数据组合,让 在、编码、历史知识等各种使用场景中,都能表现良好。 依旧是王道 为了有效利用预训练数据,团队在扩大预训练规模上,投入了大量精力。 针对下游基准评估,开发了一系列详细的缩放定律。这就保证团队能够选择最佳的数据组合,同时最佳地利用训练计算资源。 而缩放定律可以帮助团队在实际训练模型之前,预测最大模型在关键任务上的性能,这是至关重要的,因为这就能确保,模型在各种使用场景和能力方面,都有出色的表现。 在这个过程中,团队对缩放行为观察到了有了几个有趣的新现象。 比如,虽然一个参数模型的最优训练计算量,对应于约亿个,但发现,即使在模型接受了两个数量级以上的数据训练后,模型性能仍在继续提高! 而和参数的 在接受了高达个的训练后,继续呈对数线性提高。
|
|