Accelerate 库配置记录

type

status

date

slug

summary

或者

安装完成后，首先需要运行 accelerate config，通过 CLI 交互完成配置，之后会在 ~/.cache/huggingface/accelerate 目录下生成 default_config.json 文件。配置的详细过程如下：

关于这部分可以参考 Accelerate 官方文档，文档里有一个很方便的 QuickTour 和常用代码片段，包含了各种常见用法，这里只是简单的记录一下。

官方宣传的是，只要在原有 Pytorch 代码基础上添加四行代码就行了。主要的改动就是定义好 model 等之后交给 accelerator 实例进行打包，在反向传播时使用 accelerator.backward 代替 loss.backward。

不过在实际使用中，难免要遇到一些问题：

在半精度训练时，遇到了 Half 和 float 类型不匹配的报错。这就需要把 loss 的计算用 accelerator.autocast 包裹起来，类似于 torch.cuda.amp.autocast 的用法。

如果要使用梯度累计，需要在初始化 accelerator 时传入需要累积的步数，然后把每个 batch 的计算包裹在 accelerator.accumulate 中。

如果需要在训练过程中保存一些图片，一定要指定在主进程中进行，否则会出现非标准的行为。

类似的，更新 tqdm 进度条也需要在主进程中进行：

假如只是需要打印一些 log，可以简单的改用 accelerator.print。