Data Parallel v.s. Distributed Data Parallel

本文由 Gui-Ru Li 撰寫後編修,且持續更新中

  • DataParallel

    • single process, multi-thread

    • 將輸入一個 batch 的數據均分成多份,分別送到對應的 GPU 進行計算,各個 GPU 得到的梯度累加。

    • 與 Module 相關的所有數據也都會以淺複製的方式複製多份。

    • 每個 GPU 將針對各自的輸入數據獨立進行 forward 計算,在 backward 時,每個卡上的梯度會匯總到原始的 module 上,再用反向傳播更新單個 GPU 上的模型參數,再將更新後的模型參數複製到剩餘指定的 GPU 中,以此來實現並行。

    • 由於 GPU 0 作為master來進行梯度的匯總和模型的更新,再將計算任務下發給其他GPU,所以他的記憶體和使用率會比其他的高。

    • 全程只維護一個 optimizer,對各 GPU 上梯度進行求和,而在主 GPU 進行參數更新,之後再將模型參數 broadcast 到其他 GPU。

  • DistributedDataParallel

    • multi process

    • 在每次迭代中,每個process具有自己的 optimizer ,並獨立完成所有的優化步驟,進程內與一般的訓練無異。

    • 在各process梯度計算完成之後需要將梯度進行匯總平均,然後再由 rank=0 的進程,將其 broadcast 到所有進程,接著各進程用該梯度來獨立的更新參數。

    • 由於各進程中的模型,初始參數一致 (初始時刻進行一次 broadcast),而每次用於更新參數的梯度也一致,因此各進程的模型參數始終保持一致。

    • 相較於 DataParallel,torch.distributed 傳輸的數據量更少,因此速度更快,效率更高。