Skip to content

2024/8/11 20:10 Token及模型参数准备篇

Token及模型参数准备篇

来自:AiGC面试宝典

宁静致远 2023年09月29日 12:06


1. 预训练数据Token重复是否影响模型性能?

  • 多轮epoch的训练会降低模型性能

    📝通俗解释:就像一本书读太多遍会腻一样,模型反复学习同样的数据,效果会越来越差。

  • 更大规模的数据集会缓解重复epochs对模型性能下降的影响

    📝通俗解释:数据量越大,即使重复训练,每次"见到"的新内容也更多,负面影响就被稀释了。

  • 提高数据集的质量也无法挽救重复训练带来的过拟合

    📝通俗解释:就好比做题时把一道题做100遍,即使题目再好,记住答案而不是理解原理,考试换个数就不会了。

  • 小计算量模型的过拟合趋势与大计算量的差不多

    📝通俗解释:无论模型大小,重复训练都会导致过拟合,这个问题具有普遍性。

  • 多样的训练目标不一定减轻多Epoch的性能下降

    📝通俗解释:即使变换训练方式(如同时学语言又学推理),重复数据的负面影响依然存在。

  • Dropout是一个被大语言模型忽视的正则技术,虽然慢,但是可以降低多epochs的影响

    📝通俗解释:Dropout就像"随机偷懒"——训练时随机让部分神经元不工作,强迫模型不要过度依赖特定特征,从而提高泛化能力。虽然训练会变慢,但对防止过拟合很有效。

  • 在训练过程中逐渐使用dropout是有效的策略

    📝通俗解释:可以理解为"先认真学,再慢慢放松要求",让模型前期充分学习,后期通过Dropout防止死记硬背。


2. SFT需要多少训练Token?

  • 少量高质量、多样性的数据,也可以训练出效果优秀的SFT模型

    📝通俗解释:SFT(监督微调)就像请家教,不需要题海战术,找几个高质量、有代表性的例子认真教,比刷大量低质量题目更有效。质量比数量更重要。


[图片:知识星球 Logo]

https://articles.zsxq.com/id_9oplu4014qx5.html


基于 MIT 许可发布