论文FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES
简介
该论文主要集中于低资源下大模型的训练问题,提出LOMO优化器,使得大模型全参数微调成本更低,单卡24G即能微调LLaMA7B。
方法介绍

伪代码如下
借鉴了SGD优化器的使用,没有使用动量计算梯度,相对于SGD的区别在于按步更新模型参数,即计算某个参数的梯度后立即更新该参数的梯度,而不是传统优化器那样计算完梯度后全量更新模型参数。使得优化器的状态不会被存储在显存中,且只需要存储一个参数的梯度,显著降低了使用的显存。
显存降低情况如下图所示
不过该方法的训练速度比较慢,可能是使用了deepspeed zero3以及按步更新模型参数的原因。实测该速度还不如int4 lora微调llama,不过这是全量微调,且使用的显存明显降低,算是提供了一种可行性方式。
实验结果

该实验结果都是基于自己的实验上比较的,未和公开的实验论文相比较,且实验结果是按照最好结果报告的,具有一定的参考意义,不过证明了LOMO的可行性。