FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES

论文FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES

简介

该论文主要集中于低资源下大模型的训练问题,提出LOMO优化器,使得大模型全参数微调成本更低,单卡24G即能微调LLaMA7B。

方法介绍

伪代码如下

借鉴了SGD优化器的使用,没有使用动量计算梯度,相对于SGD的区别在于按步更新模型参数,即计算某个参数的梯度后立即更新该参数的梯度,而不是传统优化器那样计算完梯度后全量更新模型参数。使得优化器的状态不会被存储在显存中,且只需要存储一个参数的梯度,显著降低了使用的显存。

显存降低情况如下图所示

不过该方法的训练速度比较慢,可能是使用了deepspeed zero3以及按步更新模型参数的原因。实测该速度还不如int4 lora微调llama,不过这是全量微调,且使用的显存明显降低,算是提供了一种可行性方式。

实验结果

该实验结果都是基于自己的实验上比较的,未和公开的实验论文相比较,且实验结果是按照最好结果报告的,具有一定的参考意义,不过证明了LOMO的可行性。


   转载规则


《FULL PARAMETER FINE-TUNING FOR LARGE LANGUAGE MODELS WITH LIMITED RESOURCES》 yao 采用 知识共享署名 4.0 国际许可协议 进行许可。
 上一篇
DeepSpeed-Chat Llama/Llama-2 DeepSpeed-Chat Llama/Llama-2
blogDeepSpeed-Chat for llama/llama2 简介DeepSpeed-Chat 是一个用于 RLHF 训练的通用系统框架,它能够轻松、快速、经济、可扩展地训练类似于 ChatGPT 的模型, GitHub。 已更新
下一篇 
QLoRA-Efficient Finetuning of Quantized LLMs QLoRA-Efficient Finetuning of Quantized LLMs
论文QLORA: Efficient Finetuning of Quantized LLMs 摘要作者提出了QLORA,一种高效的微调方法,可以在单个48GB的GPU上微调一个65B参数的模型,同时保持完整的16位微调任务性能,从而降低内
  目录