deepspeed config 键值使用
train_batch_size:设置训练时的批量大小。
gradient_accumulation_steps:设置梯度累积的步数,以减少通信开销和内存占用。
fp16:设置是否使用混合精
2023-03-11