Automatic Mixed Precision 적용하기

2021. 5. 10. 18:34딥러닝

AMP + batch size=1*num_GPU
AMP + batch size=2*num_GPU
No AMP + batch size=1*num_GPU
link

amp_examples.html#distributeddataparallel-one-gpu-per-process에 의하면 DDP가 스레드를 의도적으로 spawn하지 않는다고 한다. 따라서 autocastGradScaler가 영향받지 않는다.

따라서 사용못한다,(?)

donaricano-btn