以下是关于CLI参数的详细信息: 预训练模型路径:--pretrained。预训练模型在Hugging Face格式中的路径。 数据集路径:--dataset。预标记数据集的路径。 Booster插件:--plugin。支持gemini、gemini_auto、zero2、zero2_cpu和3d。有关更多详情,请参阅Booster插件。 要加载的中间检查点:--load_checkpoint。中间检查点的路径。保存的检查点包含了lr_scheduler、optimizer、running_states.json和模型。如果load_checkpoint指向模型文件夹,只会加载模型权重,而不加载其他支持多阶段训练的状态。 保存间隔:--save_interval。保存检查点的间隔(步数)。默认值为1000。 检查点目录:--save_dir。保存检查点和中间状态的目录路径。中间状态包括lr_scheduler、optimizer、running_states.json和模型。 Tensorboard目录:--tensorboard_dir。保存Tensorboard日志的路径。 配置文件:--config_file。保存配置文件的路径。 训练周期数:--num_epochs。训练周期数。默认值为1。 微批量大小:--micro_batch_size。每个GPU的批量大小。默认值为1。 学习率:--lr。学习率。默认值为3e-4。 最大长度:--max_length。上下文的最大长度。默认值为4096。 混合精度:--mixed_precision。混合精度。默认值为"fp16"。支持"fp16"和"bf16"。 梯度剪裁:--gradient_clipping。梯度剪裁。默认值为1.0。 权重衰减:-w、--weight_decay。权重衰减。默认值为0.1。 热身步数:-s、--warmup_steps。热身步数。默认值由0.025的热身比例计算得出。 梯度检查点:--use_grad_checkpoint。是否使用梯度检查点。默认值为False。这会节省内存但会降低速度。建议在使用大批量大小进行训练时启用此选项。 闪存注意力:--use_flash_attn。如果要使用闪存注意力,必须安装flash-attn和相关软件包。默认值为False。这有助于加速训练并节省内存。建议始终使用闪存注意力。 冻结非嵌入参数:--freeze_non_embeds_params。冻结非嵌入参数。在扩展词汇量大小后对齐嵌入很有帮助。 张量并行规模:--tp。三维并行规模。默认值为1。 零阶段:--zero。三维并行的零阶段。默认值为1。 |