HPC Technologies
HPCテクノロジーズ株式会社
High Performance Computing で科学技術計算をサポート
・HPCTテクニカルセンター ・製品カタログ ・プライスリスト ・ベンチマーク ・採用情報
ジョブ管理ソフト UGE の利用方法
4. Dockerジョブの基本的な実行方法
- nvidia-dockerを利用しない場合
本章では、以下の条件で稼働しているものとします。
CentOS v7.5
Univa GridEngine 8.6.0
docker-ce-18.03.1.ce-1.el7.centos.x86_64
UGEでは、サポートするDockerのバージョンが細かく決まっていますのでご注意ください。UGE v8.6.0は、Docker-ce 18.03.xまでのバージョンをサポートします。UGEのサポート外のバージョンのDockerを使用する場合には、UGEの提供するDocker Integrationは利用できない場合があります。
UGEがサポートするDockerが稼働している場合、以下のようにcomplex_value dockerに1の値が与えられます。
# qhost -F docker
HOSTNAME ARCH NCPU NSOC NCOR NTHR NLOAD MEMTOT MEMUSE SWAPTO SWAPUS
----------------------------------------------------------------------------------------------
global - - - - - - - - - -
node01 lx-amd64 32 2 32 32 0.00 140.8G 6.6G 32.0G 11.5M
hl:docker=1
node02 lx-amd64 32 2 32 32 0.00 140.8G 4.6G 32.0G 0.0
hl:docker=1
"qhost -F [resource_name, ...]"で、"resource_name"として指定されたリソースをホストごとに表示します。
以下は、CPU版Tensorflowを実行する場合のスクリプトです。
Pythonスクリプトは、以下のものを使用しています。
https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks
#!/bin/bash
#$ -cwd
#$ -l docker
#$ -l docker_images="*tensorflow/tensorflow:latest*"
#$ -xd "-v /home:/home"
python ./tf_cnn_benchmarks.py --model trivial --batch_size 32
オプションの説明
-l docker :
UGEがサポートしているdockerが稼働しているホストリソースを指定します。
-l docker_images :
dockerイメージを指定します。上記例のようにアスタリスクを使用してください。
-xd "-v /home:/home" :
-xdオプションは、docker runコマンドへ引き継がれるオプションを指定します。ここでは、-vオプションを使用してボリューム共有を行っています。-xdオプションとして、コンテナの削除を指定する--rmオプションをつけなくても、UGEが自動的にジョブ終了時にコンテナを削除します。
コマンドライン :
docker runを使用してコンテナ上で実行されるコマンドを指定します。