​ジョブ管理ソフト UGE の利用方法

4. ​Dockerジョブの基本的な実行方法

  - nvidia-dockerを利用しない場合

本章では、以下の条件で稼働しているものとします。

CentOS v7.5
Univa GridEngine 8.6.0
docker-ce-18.03.1.ce-1.el7.centos.x86_64

UGEでは、サポートするDockerのバージョンが細かく決まっていますのでご注意ください。UGE v8.6.0は、Docker-ce 18.03.xまでのバージョンをサポートします。UGEのサポート外のバージョンのDockerを使用する場合には、UGEの提供するDocker Integrationは利用できない場合があります。

UGEがサポートするDockerが稼働している場合、以下のようにcomplex_value dockerに1の値が与えられます。

# qhost -F docker
HOSTNAME                ARCH         NCPU NSOC NCOR NTHR NLOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------------------
global                  -               -    -    -    -     -       -       -       -       -
node01                  lx-amd64       32    2   32   32  0.00  140.8G    6.6G   32.0G   11.5M
   hl:docker=1
node02                  lx-amd64       32    2   32   32  0.00  140.8G    4.6G   32.0G     0.0
   hl:docker=1

"qhost -F [resource_name, ...]"で、"resource_name"として指定されたリソースをホストごとに表示します。

以下は、CPU版Tensorflowを実行する場合のスクリプトです。

Pythonスクリプトは、以下のものを使用しています。
https://github.com/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks

#!/bin/bash
#$ -cwd
#$ -l docker 
#$ -l docker_images="*tensorflow/tensorflow:latest*"
#$ -xd "-v /home:/home"

python ./tf_cnn_benchmarks.py --model trivial --batch_size 32

オプションの説明

-l docker

UGEがサポートしているdockerが稼働しているホストリソースを指定します。

-l docker_images :
dockerイメージを指定します。上記例のようにアスタリスクを使用してください。
 

-xd "-v /home:/home" :
-xdオプションは、docker runコマンドへ引き継がれるオプションを指定します。ここでは、-vオプションを使用してボリューム共有を行っています。-xdオプションとして、コンテナの削除を指定する--rmオプションをつけなくても、UGEが自動的にジョブ終了時にコンテナを削除します。

コマンドライン :
docker runを使用してコンテナ上で実行されるコマンドを指定します。

 

© 2006-2019 HPC Technologies Co., Ltd. All rights reserved.