归档
正在加载今日诗词...
08
31
07
09
05
28
03
11
deepspeed deepspeed
deepspeed config 键值使用 train_batch_size:设置训练时的批量大小。 gradient_accumulation_steps:设置梯度累积的步数,以减少通信开销和内存占用。 fp16:设置是否使用混合精
08
07
07
26