适配器微调(Adapter-tuning)篇
📝通俗解释:适配器微调是一种高效的模型微调技术,它在不改变原模型参数的情况下,通过添加小型模块来适应新任务,从而节省计算资源和时间。
一、为什么需要适配器微调(Adapter-tuning)?
- 背景:随着预训练模型参数量的不断增长(从亿级到万亿级),在特定任务下进行全量微调变得既昂贵又耗时;
- 全量微调需要保存所有模型参数,显存需求巨大
- 每个下游任务都需要训练一套完整的模型参数,成本高昂
📝通俗解释:就像一辆超级跑车(大型预训练模型),如果要为每次比赛(每个新任务)都重新调校整个发动机(全部参数),既花钱又费时。适配器微调就像在车里加一个可拆卸的调校模块,只调整这个小部件就能让车子适应不同赛道,省时又省钱。
二、适配器微调(Adapter-tuning)思路?
核心设计:在 Transformer 层中嵌入 Adapter 结构
- Down-project 层:将高维特征映射到低维特征(降维)
- 非线性层:对低维特征进行非线性变换
- Up-project 层:将低维特征映射回原高维特征(升维)
- Skip-connection(残差连接):确保最差情况下退化为恒等映射(identity)
训练策略:
- 固定预训练模型参数不变
- 只对新增的 Adapter 结构进行微调
- 引入少量参数实现高效训练
📝通俗解释:Adapter 就像一个"翻译官"。原始模型是已经学会很多知识的"老师",Adapter 则是贴在老师身上的"小抄"。训练时我们不让老师重新学习,只让小抄记住新任务的重点。这样既保留了老师的知识,又快速学会了新技能,而且小抄很小(参数量少),不会增加太多负担。
三、适配器微调(Adapter-tuning)特点是什么?
优点:
- 只引入少量额外参数,训练资源消耗低
- 可在不修改原模型的情况下快速适配新任务
- 多个任务可共享同一个预训练模型
缺点:
- 在推理时会额外增加推理时长(因为需要计算 Adapter)
- Adapter 与预训练模型存在竞争,可能影响模型表现
📝通俗解释:Adapter 的特点是"省空间但费时间"。它像是一个便携式的小工具箱,带着走不占地方(参数量小),但每次用的时候都要多打开一层(增加推理时间)。这是用少量时间换大量存储空间的权衡。
四、AdapterFusion 思路是什么?
思路:一种融合多任务信息的 Adapter 变体,通过两阶段学习提升下游任务表现
- 第一阶段:学习多个任务的通用知识(预训练 Adapter)
- 第二阶段:学习如何融合这些知识以适配特定任务(聚合 Adapter)
核心目的:解决多任务学习中任务间知识传递的问题,实现知识共享与任务特定优化的平衡
📝通俗解释:AdapterFusion 就像一个"知识管理器"。假设有多个老师(不同任务的 Adapter),每个老师擅长不同科目。第一阶段让每个老师教好自己的科目,第二阶段让一个"教导主任"学习如何综合各位老师的知识,根据具体科目需求灵活调用。这样既能让各科老师发挥专长,又能根据需要灵活组合。
五、AdapterDrop 思路是什么?
- 思路:在不影响任务性能的前提下,动态高效地移除 Adapter,减少模型参数量,提高训练和推理效率
- 核心思想:不是所有 Adapter 都同等重要,靠近模型底层的 Adapter 对推理速度影响更大
📝通俗解释:AdapterDrop 就像"优化行李箱"。每次出行(推理)时,不一定需要带上所有行李(Adapter),可以根據目的地(任务类型)选择性丢弃一些不重要的行李(底层的 Adapter)。这样既能达到目的地(完成任务),又能减轻负担(提高效率)。
六、AdapterDrop 特点是什么?
- 特点:
- 从较低层(靠近输入的层)开始删除 Adapter,对推理速度提升更明显
- 动态减少推理时的计算开销
- 在保持任务性能的同时显著提高推理效率
📝通俗解释:AdapterDrop 的特点是"选择性丢弃"。它发现如果把行李分为"必须带"和"可选带",那么靠近门口的行李(底层 Adapter)拿起来最费时,丢掉的收益最大。实验证明,扔掉这些行李后,车子跑得更快(推理更快),但乘客还能到达目的地(任务效果基本不变)。
七、MAM Adapter 思路是什么?
- 思路:一种统一 Adapter、Prefix Tuning 和 LoRA 三种高效微调方法的新框架
- 将并行 Adapter(用于 FFN 层)与软提示(Soft Prompt)组合
- 探索三种方法之间的联系与互补性
📝通俗解释:MAM Adapter 就像一个"集大成者"。它发现 Adapter、Prefix Tuning、LoRA 这三种方法各有各的好,就像三个不同门派的武功。它研究后发现这三种方法其实可以互相补充,于是创造了一套组合拳,把它们的优点都结合起来,比单独用任何一种都厉害。
八、MAM Adapter 特点是什么?
- 特点:
- 整体效果优于单个高效微调方法
- 通过组合不同方法实现更强的任务适应性
- 在保持参数效率的同时提升模型性能
📝通俗解释:MAM Adapter 的特点是"1+1+1>3"。就像炒菜时同时放盐、酱油、料酒,每种调料单独吃都不好吃,但组合起来能让菜品更加美味。MAM Adapter 通过组合三种微调技术,实现了比单独使用任何一种更好的效果。
整理自:AiGC面试宝典