2024/8/11 20:10 Token及模型参数准备篇

Token及模型参数准备篇

来自：AiGC面试宝典

宁静致远 2023年09月29日 12:06

1. 预训练数据Token重复是否影响模型性能？

多轮epoch的训练会降低模型性能
📝通俗解释：就像一本书读太多遍会腻一样，模型反复学习同样的数据，效果会越来越差。
更大规模的数据集会缓解重复epochs对模型性能下降的影响
📝通俗解释：数据量越大，即使重复训练，每次"见到"的新内容也更多，负面影响就被稀释了。
提高数据集的质量也无法挽救重复训练带来的过拟合
📝通俗解释：就好比做题时把一道题做100遍，即使题目再好，记住答案而不是理解原理，考试换个数就不会了。
小计算量模型的过拟合趋势与大计算量的差不多
📝通俗解释：无论模型大小，重复训练都会导致过拟合，这个问题具有普遍性。
多样的训练目标不一定减轻多Epoch的性能下降
📝通俗解释：即使变换训练方式（如同时学语言又学推理），重复数据的负面影响依然存在。
Dropout是一个被大语言模型忽视的正则技术，虽然慢，但是可以降低多epochs的影响
📝通俗解释：Dropout就像"随机偷懒"——训练时随机让部分神经元不工作，强迫模型不要过度依赖特定特征，从而提高泛化能力。虽然训练会变慢，但对防止过拟合很有效。
在训练过程中逐渐使用dropout是有效的策略
📝通俗解释：可以理解为"先认真学，再慢慢放松要求"，让模型前期充分学习，后期通过Dropout防止死记硬背。

少量高质量、多样性的数据，也可以训练出效果优秀的SFT模型
📝通俗解释：SFT（监督微调）就像请家教，不需要题海战术，找几个高质量、有代表性的例子认真教，比刷大量低质量题目更有效。质量比数量更重要。

[图片：知识星球 Logo]