April 2023

NVidia Container Toolkitでgpu-enabledなdocker imageで作業したときの作業メモ

GPUを利用する機械学習系の環境を構築する際に 、CUDAとフレームワーク等のバージョンの整合性で困ることがある。必ずしも最新版にしておけばいいというわけではないことが結構ある(気がする) dockerコンテナ内でgpuが利用できるようになるNvidia Container TookitをNvidiaが提供してくれているので、これを利用すると任意のCUDAバージョンの環境が構築できるようになりますという作業メモ。 1.Nvidia Container Toolkitをインストール ホストOS側に、Nvidia Linux DriverとNvidia Container Toolkitをインストールして、docker runtimeにnvidiaランタイムを認識してもらうまで下記のマニュアルに沿って設定。 ホスト側にはNvidia Linux DriverおよびNVidia Container Toolkit だけで良いので、CUDAで気を病む必要がない(たぶん) https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html 2.gpuが認識されているかの確認方法 これも書いてある通りだが、 $ sudo docker run –rm –runtime=nvidia –gpus…