12と18のリビジョン間の差分 (その間の編集: 6回)
サイズ: 2196
コメント:
|
サイズ: 1045
コメント:
|
削除された箇所はこのように表示されます。 | 追加された箇所はこのように表示されます。 |
行 1: | 行 1: |
= NVIDIA GPU Cloudコンテナの実行方法 = | = 深層学習コンテナを利用する方法 = |
行 3: | 行 3: |
== NVIDIA GPU Cloud(NGC)の概要 == NVIDIA GPU Cloud([[https://ngc.nvidia.com/|NGC:https://ngc.nvidia.com]]) はディープラーニング、機械学習、HPC のために GPU で最適化されたソフトウェアのハブであり、最新のアプリケーションをDockerイメージでタイムリーに利用できます。 |
singularity pullを利用することで,sifイメージのダウンロードやDockerイメージのsifファイルへの変換が可能です. ここでは深層学習用コンテナを利用する例として,Dockerイメージのsifファイルへの変換例を示します.キャッシュや一時ファイルを/work/[ユーザID]領域以下に生成するように環境変数を設定しています.これらがない場合,/home容量のオーバーやディレクトリのアクセス権限によるエラーとなります. |
行 6: | 行 6: |
== NVIDIA GPU Cloudコンテナの表示 == NVIDIA GPU Cloudに登録されているコンテナを下記コマンドで確認できます。 NGCに登録されているイメージのリストは毎日更新されます。 {{{ showngcimages |
例:ROCmのPyTorch Dockerイメージをsifに変換 {{{ $ export SINGULARITY_CACHEDIR=/work/yi041 $ export SINGULARITY_TMPDIR=/work/yi041 $ nohup singularity pull docker://rocm/pytorch:latest & |
行 15: | 行 13: |
showngcimagesコマンドで表示されるイメージについての詳細はNGCホームページより下記手順で確認できます。 <<BR>> (1) NVIDIA GPU Cloud([[https://ngc.nvidia.com/|NGC:https://ngc.nvidia.com]])へアクセス <<BR>> (2) 左側メニューよりACCELERATED SOFTWAREを選択 <<BR>> (3) 表示されたイメージの中から利用したいソフトウェアを選択 <<BR>> (4) 選択したソフトウェアのページでOverviewタブを選択します。 <<BR>> (5) Suggested Readingのセクションにリリースノート(ソフトウェアのバージョン情報)とTutorialへのリンクが記載されています。 <<BR>> <<BR>> また、NVIDIAのDeepLearningのページ[[https://docs.nvidia.com/deeplearning/]]からも各フレームワークのリリースノートやユーザガイドが確認できます。 <<BR>> == NGCコンテナの利用方法 == DOCKER_IMAGEまたはSINGULARITY_IMAGEでshowngcimagesコマンドで表示されるイメージを指定してジョブを投入することで、ジョブスケジューラがNGCからDockerイメージを取得、プライベートレジストリへの登録、Singularityイメージへの変換を自動的に行い、指定したコンテナジョブを実行します。 {{{ qsub -q gSrchq -v DOCKER_IMAGE=<NGCのイメージ> test.sh |
例:NGCのPytorch Dockerイメージをsifに変換 {{{ $ export SINGULARITY_CACHEDIR=/work/yi041 $ export SINGULARITY_TMPDIR=/work/yi041 $ nohup singularity pull docker://nvcr.io/nvidia/pytorch:22.12-py3 & |
行 36: | 行 19: |
NGCからのDockerイメージ取得には15分程度かかります。イメージが利用可能になるまでジョブはQueue状態になります。 |
深層学習コンテナを利用する方法
singularity pullを利用することで,sifイメージのダウンロードやDockerイメージのsifファイルへの変換が可能です. ここでは深層学習用コンテナを利用する例として,Dockerイメージのsifファイルへの変換例を示します.キャッシュや一時ファイルを/work/[ユーザID]領域以下に生成するように環境変数を設定しています.これらがない場合,/home容量のオーバーやディレクトリのアクセス権限によるエラーとなります.
例:ROCmのPyTorch Dockerイメージをsifに変換
$ export SINGULARITY_CACHEDIR=/work/yi041 $ export SINGULARITY_TMPDIR=/work/yi041 $ nohup singularity pull docker://rocm/pytorch:latest &
例:NGCのPytorch Dockerイメージをsifに変換
$ export SINGULARITY_CACHEDIR=/work/yi041 $ export SINGULARITY_TMPDIR=/work/yi041 $ nohup singularity pull docker://nvcr.io/nvidia/pytorch:22.12-py3 &