2024/8/11 20:10 Token及模型参数准备篇
Token及模型参数准备篇
来自:AiGC面试宝典
宁静致远 2023年09月29日 12:06
1. 预训练数据Token重复是否影响模型性能?
多轮epoch的训练会降低模型性能
📝通俗解释:就像一本书读太多遍会腻一样,模型反复学习同样的数据,效果会越来越差。
更大规模的数据集会缓解重复epochs对模型性能下降的影响
📝通俗解释:数据量越大,即使重复训练,每次"见到"的新内容也更多,负面影响就被稀释了。
提高数据集的质量也无法挽救重复训练带来的过拟合
📝通俗解释:就好比做题时把一道题做100遍,即使题目再好,记住答案而不是理解原理,考试换个数就不会了。
小计算量模型的过拟合趋势与大计算量的差不多
📝通俗解释:无论模型大小,重复训练都会导致过拟合,这个问题具有普遍性。
多样的训练目标不一定减轻多Epoch的性能下降
📝通俗解释:即使变换训练方式(如同时学语言又学推理),重复数据的负面影响依然存在。
Dropout是一个被大语言模型忽视的正则技术,虽然慢,但是可以降低多epochs的影响
📝通俗解释:Dropout就像"随机偷懒"——训练时随机让部分神经元不工作,强迫模型不要过度依赖特定特征,从而提高泛化能力。虽然训练会变慢,但对防止过拟合很有效。
在训练过程中逐渐使用dropout是有效的策略
📝通俗解释:可以理解为"先认真学,再慢慢放松要求",让模型前期充分学习,后期通过Dropout防止死记硬背。
2. SFT需要多少训练Token?
- 少量高质量、多样性的数据,也可以训练出效果优秀的SFT模型
📝通俗解释:SFT(监督微调)就像请家教,不需要题海战术,找几个高质量、有代表性的例子认真教,比刷大量低质量题目更有效。质量比数量更重要。
[图片:知识星球 Logo]
https://articles.zsxq.com/id_9oplu4014qx5.html