編集不可のページ History 添付ファイル

 

TUT HPC Cluster Wiki: "ClusterSystemTips"の差分

17と18のリビジョン間の差分
2017-11-17 06:11:40時点のリビジョン17
サイズ: 5807
編集者: tsuchiya
コメント:
2018-01-09 13:24:34時点のリビジョン18
サイズ: 5856
編集者: intergroup01
コメント:
削除された箇所はこのように表示されます。 追加された箇所はこのように表示されます。
行 2: 行 2:

[Japanese|[[en/ClusterSystemTips|English]]]

[Japanese|English]

クラスタシステム利用の Tips

クラスタシステム利用にあたって気づいた便利なノウハウなどの記入をお願いします.ログインすることで編集できるようになります.

研究ユーザ情報交換用メーリングリストの過去ログ

研究ユーザの情報交換用メーリングリストの過去ログは, http://lists.imc.tut.ac.jp/pipermail/research-users/ で見れます.

使用リソース(メモリ使用量など)の計測

プロセスが使用したリソース(メモリ使用量など)は GNU 版 time コマンド(/usr/bin/time)で計測できます.オプション -v を利用することで,以下のようにプロセスが使用したリソースの詳細が表示されます(Man page of TIME).

-bash-4.1$ /usr/bin/time --version
GNU time 1.7

-bash-4.1$ /usr/bin/time -v whoami
my016
        Command being timed: "whoami"
        User time (seconds): 0.00
        System time (seconds): 0.00
        Percent of CPU this job got: 0%
        Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.00
        Average shared text size (kbytes): 0
        Average unshared data size (kbytes): 0
        Average stack size (kbytes): 0
        Average total size (kbytes): 0
        Maximum resident set size (kbytes): 3088
        Average resident set size (kbytes): 0
        Major (requiring I/O) page faults: 0
        Minor (reclaiming a frame) page faults: 243
        Voluntary context switches: 3
        Involuntary context switches: 1
        Swaps: 0
        File system inputs: 0
        File system outputs: 0
        Socket messages sent: 0
        Socket messages received: 0
        Signals delivered: 0
        Page size (bytes): 4096
        Exit status: 0

メモリの使用量は Maximum resident set size で知ることができますが, v1.7 には実際の4倍で表示されるという既知のバグ(実使用量は表示された値の4分の1)があります(GNU Time にある壮大なバグ).

GNU 版 time コマンドはクラスタの演算ノードでも利用できますが,結果が標準エラー出力であることに留意する必要があります.

投入しているジョブの一括削除

一般のユーザには qdel コマンドのオプション all が許可されていないように見えるものの,実際は投入している全てのジョブを削除することができます.

-bash-4.1$ qdel all

任意のコマンドをジョブ投入するスクリプト

qsub コマンドの -v オプションを利用すると,実行スクリプトに任意の環境変数を渡すことができます.この機能を利用し,演算ノードに任意のコマンドを実行できるようにしたものが以下のスクリプトです.なお,標準エラー出力は標準出力とともに出力し(-j oe),実行時間及び実行ノードを記録するためのコマンド(date, hostname)も含まれています.

   1 #!/bin/bash
   2 #PBS -l nodes=1:ppn=1
   3 #PBS -q wLrchq
   4 #PBS -j oe
   5 
   6 cd $PBS_O_WORKDIR
   7 
   8 date
   9 hostname
  10 echo "$JOB_CMD"
  11 eval "$JOB_CMD"
  12 date

実行スクリプトを qsub.sh としたとき,以下のように JOB_CMD に任意のコマンドを指定してジョブを投入します.

-bash-4.1$ qsub -v JOB_CMD="/usr/bin/time -v perl i_love_cats.pl" qsub.sh

-bash-4.1$ qsub -v JOB_CMD="perl catching_cats.pl | perl counting_cats.pl" qsub.sh

キューにあるすべてのユーザのジョブ一覧

/usr/local/maui/bin/showq コマンドを使うと,キューにある他のユーザも含めたジョブ一覧を確認することができます.

ジョブの実行状態を繰り返し表示

投入したジョブがどのような状況かを表示する場合には, watch コマンドを併用すると便利です.以下のように実行すると,5秒間隔で繰り返し実行され,常に最新の状態を把握することができます.また,オプション -d を指定すると,前回との差分がハイライトされます.なお,繰り返し実行するコマンドにエイリアスは指定できません.

-bash-4.1$ watch -n 5 qstat -a

-bash-4.1$ watch -n 5 qstat -Q

-bash-4.1$ watch -n 5 -d qstat -Q

ulimit -t (cpu time) による制限

開発ノードには ulimit による cpu time の制限が存在します.この制限値は time コマンドで表示される値とは異なる値(隠れた値)に対して適用されるようです.原因のよくわからない「強制終了」が発生した場合,この制限が原因である可能性があります.例えば,大量のデータを rsync で同期すると以下のようなエラーが発生します.

-bash-4.1$ rsync --progress -avh /tmp/source /destination/
sending incremental file list

...

rsync: writefd_unbuffered failed to write 4 bytes to socket [sender]: Broken pipe (32)
rsync: connection unexpectedly closed (96 bytes received so far) [sender]
rsync error: error in rsync protocol data stream (code 12) at io.c(600) [sender=3.0.6]

rsync が消費する cpu time は --bwlimit の指定に関係なく,概ねデータ転送量で決まるようです.リモート同期の場合は ssh による経路暗号化処理が入るため,ローカル同期よりも cpu time を2倍程度消費する傾向にあります.