Univa Grid Engine (UGE) Release Notes

Univa Grid Engine v8.5.5 Release Notes 

原文はこちらのURLから取得してください。http://www.univa.com/resources/releases.php

4 Fixes and Enhancements
4.1 Summary
4.1.1 8.5.5: Security fixes and enhancements

 

Univa Grid Engineには、セキュリティフィックスGE-6972、GE-6973、およびGE-6974が含まれています。これらの修正により、Oracle Grid Engineで報告された脆弱性CVE-2012-0523およびCVE-2012-0208もUniva Grid Engineに完全に統合されています。脆弱性の説明 https://nvd.nist.gov/で見つけることができます。


この拡張の結果として、保存されていない環境変数のフィルタリングが強化されています。フィルタの動作に影響を与える新しいqconfパラメータが導入されました(man sge_conf(5)、パラメータENABLE_SUBMIT_LIB_ENV_PREFIX)。

4.1.2 8.5.5: Changed resulting “failed” job states in the accounting

GE-6983とGE-6508で強化された機能は、Univa Grid Engineのジョブアカウンティングの機能に影響します。

制限事項:state 45〜47(h_cpu、h_vmem、h_rss limit reached)は、execdがlimitを監視するように設定されている場合にのみ機能します。これは、構成内のENFORCE_LIMITS execdパラメーターを"EXECD"に設定することで構成できます。他のすべての設定や他の制限関連ジョブの終了(シェル制限、cgroup)は、この新しいfail stateを引き起こしません。そのような場合、これまで通りstate 100が報告されます。

すべてのfail stateのリストは、sge_diagnosticsのマニュアルページにあります。

4.1.3 8.5.0: Logging specific changes

設定されたexecdスプールディレクトリに一時的なアクセス権の問題がある場合、sge_execdデーモンはスプーリングディレクトリ領域にメッセージを記録するために別のファイルを開こうとします。ファイル名は "messages"でなければなりません。ここで、nrは固有の増加数です。 execdが再起動されると、正しいファイル名 "messages"が再度使用されます。

4.1.4 8.5.1: Changed limit calculation

Univa Grid Engine 8.5.1ではジョブの制限計算が改善され、Univa Grid Engineの以前のバージョンと比較して変更されました。 最も重要な変更点は次のとおりです。

  • consumableタイプ(NO、YES、JOB、HOST)は、tight integrationにより実行されたパラレルジョブの制限に影響しません。

  • 以前のUniva Grid Engineの計算された制限値が高すぎました(peとconsumableの設定に依存)。

  • cgroups h_vmemの監視。

8.5.1より前のUniva Grid Engineのバージョンでは、 "h_vmem"のような制限値に対して高すぎる値が設定されていました。 その結果、ジョブは制限値のひとつを超えても終了しませんでした。 制限値の計算は今では修正されています。制限値監視の詳細な概要とその動作の仕組みは、sge_diagnostics(1)のman page(JOB LIMITS)に記載されています。
注意:以前のバージョンから8.5.1に更新する場合は、ジョブのused limit requestsを確認してください。 要求された制限値を変更する必要があるかもしれません。制限値を低く設定したり、以前の制限値計算に合うように調整した場合、正常に動作していたジョブがこのバージョンをインストールした後に失敗することがあります。

4.1.5 8.5.1: Improved rescheduling behaviour

新しいexecd_paramsパラメータRESCHEDULE_ON_MISSING_EPILOGが導入されました。 デフォルト値はtrueで、この場合古い動作となります。falseに設定すると、ジョブは再スケジュールされず、設定されたepilogスクリプトが見つからない場合、キューはエラー状態に設定されません。代わりに、Univa Grid Engineは、epilogスクリプトが設定されていないかのように動作します。このパラメーターは、並列環境のstop_proc_argsスクリプト(pe_stopスクリプトとも呼ばれます)にも適用されます。

4.1.6 8.5.1: Possibility to reduce qhost data request sizes at sge_qmaster

環境変数SGE_GDI_REQUEST_REDUCE_LEVELを設定することにより、sge_qmasterからqhostクライアントに転送されるデータの量を減らすことができます。 詳細な説明は、qhost(1)のman page(ENVIRONMENTAL VARIABLES)を参照してください。

4.1.7 8.5.1: New environment variables in the job environment

Univa Grid Engineは、job、prolog、pe_start、pe_stop、およびepilogスクリプトの環境内に以下の2つの新しい環境変数を設定します。

 

SGE_RERUN_REQUESTED=<0|1|2>


値0は、ジョブのサブミットコマンドラインに-r <y | n>要求がなかったことを意味します.1は-r yが要求されたことを意味し、2は-r nが要求されたことを意味します。


SGE_RERUN_JOB=<0|1>
 

1の値は、ジョブがエラー時に再スケジュールされることを意味します。 この値は、SGE_RERUN_REQUESTEDの値とジョブが実行されるキューの設定値rerunから決定されます。
 

さらに、Univa Grid Engineは、この新しい環境変数をpe_stopおよびepilogスクリプトの環境に設定します。

SGE_JOB_EXIT_STATUS
 

この変数は、ジョブの終了ステータスに設定されます。これは、exit_statusフィールドに書き込まれるのと同じ値です。

4.1.8 8.5.1: New example script for jsv and core-binding

JSVを使用したコア・バインディングを示す新しいサンプル・スクリプトは、"$ SGE_ROOT / util / resources / jsv / core_binding_jsv.sh"にあります。

4.1.9 8.5.1: sgepasswd renewal

アップグレードおよびインストールスクリプトが更新されたことにより、CSP/sgepasswdキーストアがバックアップされ、アップグレード側にて正しく復元されるようになりました。現在CSPまたはsgepasswdを使用している場合は、次のようにしてrootユーザーとして設定を保存する必要があります。

# $SGE_ROOT/util/upgrade_modules/save_sge_config.sh <backupdir>

 

これにより、既存のインストールにおける元のスクリプトが新しいUniva Grid Engine 8.5.1のスクリプトに置き換えられ、既存のsgeCAインフラストラクチャのバックアップも保証されます。これで、inst_sge -upd -cspを使用したアップグレードで、バックアップされたキーストアが復元されます。 新しいsgeCAインフラストラクチャを作成して新しいキーストアを作成する場合は、rootユーザとして次のコマンドを使用して、既存のsgepasswdファイルを手動で再暗号化する必要があります。

 

# $SGE_ROOT/bin/<sge_arch>/sgepasswd -n \
/var/sgeCA/<old port number>/<old sge_cell>.backup/private/key.pem

 

元のsgepasswdファイルは $SGE_ROOT/$SGE_CELL/common/sgepasswd.oldcert_backupに格納され、再暗号化されたファイルは$SGE_ROOT/$SGE_CELL/common/sgepasswd により使用できます

 

元のファイルを保存せずにこのプロセスを繰り返さないでください。そうしないと、元の情報が失われ、sgepasswdファイルを最初から再作成する必要があります。

 

バージョン8.5.0では暗号化アルゴリズムが変更されていることに注意してください。8.5.0より前の古いインストールからアップグレードしている場合は、まず"6.2 Changes in Windows execution host sgepasswd file"の手順に従わなければなりません。

4.1.10 Performance Improvements and Memory Requirements

Univa Grid Engineのさまざまなコンポーネントやライブラリのパフォーマンスを改善するためにかなりの時間を費やしました。

その結果、Univa Grid Engine 8.4.4と比較して、クラスタの以下のメトリックが改善されました。

 

  • Submit rate(ジョブの種類と要求された機能に応じて5から15%増加)

  • スケジューリング時間(使用したポリシーに応じて5から30%削減)

  • 特にインタラクティブジョブの場合、ディスパッチされたジョブのsge_execdへの迅速な配信

  • 特にqstat、qhostなどの読み取り専用要求の場合、要求処理(5から10%削減)のためのメモリ要件(5から30%削減)

  • 実行ホストが送信する要求の処理および応答時間(特定の要求はqmaster内で並列処理されるようになります) qstat/qhostのようなクライアント要求の処理(同じメモリ要件で同じ時間内に処理できる要求が約30%増加する)

  • ジョブのターンアラウンドタイム

これにより、クラスタ全体のスループットが向上し、Univa Grid Engineクラスタとのやりとりが向上します。

クラスタのスピードアップは、クラスタ設定と、有効または無効になっているUniva Grid Engineの機能によって異なります。
 

4.1.11 Standing Reservations

Univa Grid Engineでは、Advance Reservationが拡張され、Standing Reservationが可能になりました。

 

Standing ReservationはAdvance Reservationを繰り返すものです。個々のAdvance Reservationの開始時刻と終了時刻はカレンダーで指定され、追加のコマンドラインオプションでは一度に予約できる数と予約が許可されない場合の動作を指定できます。

 

リソース要求などのAdvance Reservationで利用可能なすべてのオプションは、Standing Reservationでも利用できます。

 

詳細については、User Guide -> Reservationsを参照してください。

4.1.12 Policy Scheme: Consider Slots Instead of Jobs

Univa Grid Engineは、スケジューラーが実行中のジョブによって使用されるスロットの数と、共有ツリーによって定義される共有目標に向けてユーザーおよびプロジェクトの貢献度を計算する際に保留中のジョブによって考慮される設定オプションを提供します。

つまり、4つのスロットを使用するパラレルジョブは、4つのシリアルジョブに対して、リソース使用量の点で同等と見なされます。以前のシェアツリーアルゴリズムではスロットの使用は考慮されていませんでした。これは、パラレルジョブとシリアルジョブが混在しているか、またはキューに入れられている場合、保留中のジョブに与えられたチケット数が正しいランタイム共有率とならず、共有ツリーの目標は満たされないことを意味します。例えば、2つのプロジェクト"a"と"b"が共有ツリー内の同じレベルで同じシェアで設定されている場合、スケジューラーはプロジェクトの使用率が均等になるようにジョブのスケジュールを設定する必要があります。しかし、プロジェクト"a"がほとんどパラレルジョブを持つ場合、以前の共有ツリーアルゴリズムはすべてのジョブを等しく扱うので、より多くの使用率を得る傾向があります。実際、古いアルゴリズムでは、プロジェクト"a"の保留中の4スロットジョブと、プロジェクト"b"の使用されていない共有ツリーの保留中の1スロットジョブの優先順位を見ると、保留中のジョブが(a b a b a b a b ...)のようにインターリーブされていることがわかります。 新しいアルゴリズムを使用すると、スロット使用率に基づいて(a b b b b a b b b b ...)のように保留中のジョブがオーダーされることがわかります。これにより、適切なランタイム共有率につながる可能性が高くなります。

urgency_slots PE属性は、スロット範囲を持つ保留ジョブによって使用される想定スロット数を決定するために使用されます。詳細については、sge_pe(5)のman pageのurgency_slotsを参照してください。

 

古い動作(ジョブに基づく共有)は、sched_conf(5)params属性でSHARE_BASED_ON_SLOTS=false(デフォルト)とすることで設定できます。新しい動作(スロットに基づく共有)は、sched_conf(5)params属性でSHARE_BASED_ON_SLOTS=trueを設定することで設定できます。詳細は、sched_conf(5)のman pageを参照してください。

 

$ qconf -msconf
...
params SHARE_BASED_ON_SLOTS=true
...

Univa Grid Engineのバージョン8.6.0から、SHARE_BASED_ON_SLOTSのデフォルトはfalseからtrueに変更されます。
 

4.1.13 RSMAP Enhancements

Univa Grid Engineでは、RESTRING(詳細はcomplex(5)のman pageを参照)で使用される構文を使用して、コマンドラインからリソースマップコンプレックス(RSMAP)の特定のIDを要求することができます。次の例では、complex"GPU"の4つのId、"gpu1"または"gpu2"という名前の3つのId、および"gpu3"という名前の1つのIdを要求するジョブを送信します。

qsub -l GPU=3(gpu1|gpu2)&1(gpu3) $SGE_ROOT/examples/jobs/sleeper.sh 3600

 

ホスト構成と利用可能なIDに応じて、このジョブに割り当てられたIDの組み合わせのひとつは、gpu1 gpu1 gpu2 gpu3です。

スケジューラーが要求された名前で十分な空きIDを見つけられない場合、異なる名前の空きIDが十分にある場合でも、ジョブをスケジュールすることはできません。

Univa Grid Engineで導入された構文拡張なしでRSMAPcomplexを使用することは可能です。スケジューラーは以前のバージョンと同様に動作し、空きIDを使用します。
 

非常に複雑なリクエストはスケジューラーを遅くするかもしれないことに注意してください。
 

RSMAPの設定を簡単にするために、ショートカットが追加されました。
構文は次のとおりです。

 

complex_values complex_name=amount(complex_id:amount)

 

次の例では、"gpu1"という名前の5つのidと"gpu2"という名前の5つのidの10個の使用可能なIDを持つ"GPU"というcomplexを定義しています。

 

qconf -me exechost1
...
complex_values GPU=10(gpu1:5 gpu2:5)
...

4.1.14 Improved Scheduler Profiling

旧バージョンのUniva Grid Engineでは、スケジューラープロファイリングがスケジューリングメインループを完全にカバーしませんでした。これにより、プロファイリングデータが間違ったり欠落したりします。Univa Grid Engineには、メインループをカバーする追加の診断機能があります。スケジューラープロファイリングが詳細に記述されている最新のsge_diagnostics(1)のman pageをお読みください。

4.1.15 Improved Logging

sge_diagnostics(1)のman pageは、利用可能なログと診断オプションの概要を説明するために導入されました。最も重要な変更と新しいオプションは次のとおりです。

  • ワーカーおよびリーダー要求キューのリクエストタイプに関する統計情報を表示する(man page "sge_conf(5)"の"MONITOR_REQUEST_QUEUES"を参照)

  • 特定のしきい値を超えるログスプール(man page "sge_conf(5)"の"LOG_SPOOLING_TIME"を参照)

  • /tmp/execd_messagesファイルに記録されていない最初の起動時の通信エラー

  • プロファイリングとスタートアップ動作のための通信固有の機能拡張(man page "sge_conf(5)"の"PROF_COMMLIB_TIME"を参照)

  • 特定のしきい値を超えるログジョブ検証時間(man page "sge_conf(5)"の"LOG_JOB_VERIFICATION_TIME"を参照)

  • 特定のしきい値を超えるログ要求処理(man page "sge_conf(5)"の"LOG_REQUEST_PROCESSING_TIME"を参照)

4.1.16 Encryption in CSP mode / sgepasswd

暗号化アルゴリズムがRC4からAES256_CBCに変更されました。これは、CSPの暗号化とWindowsのexecd sgepasswdファイルの暗号化に影響します。CSPモードに必要な追加のアップグレード手順はありません。Windowsの手順については、以下のセクションで説明します。"6.2 Changes in Windows execution host sgepasswd file"

4.1.17 Online usage of running Windows jobs

Microsoft Windows上で実行されているUniva Grid Engineジョブでは、ジョブの実行中にいくつかの使用値が報告されるようになりました。報告される使用値は次のとおりです。:


wallclock、cpu、mem、io、ioops、vmem、maxvmem
 

オンラインの使用値iowはMicrosoft Windowsでは報告されません。

 

すべてのWindows使用値が対応するUNIX使用値と正確に一致するわけではありません。このリストは、対応する使用値を報告するために取得されるWindowsシステム値を示します。

これらのオンライン使用値は、例えば次のようなコマンドを使用して表示されます。

> qstat -j <job_id>

 

さらに、Microsoft Windows上で実行された終了ジョブの場合、ru_wallclock、ru_utime、ru_utime、wall clock、cpu、mem、io、iops、vmemなどの使用値が考慮されます。

wallclock、cpu、mem、io、ioops、maxvmemはオンライン使用値と同じです。

 

終了したジョブのアカウンティング値は、例えば次のようなコマンドを使用して表示されます。

 

> qacct -j <job_id>

4.1.18 Docker Related Enhancements

Univa Grid Engineでは、サブミットコマンドライン、sge_requestファイル、ジョブスクリプト、ジョブクラス、ジョブ投入確認プログラムの"-xd"オプションのサブオプションで可変プレースホルダを使用できます。これらの可変プレースホルダは、スケジューラーがジョブのタスクに対して選択する特定のRSMAPcomplexの対応する要素によって解決されます。これらのプレースホルダの形式は次のとおりです。

placeholder := '${' complex_name '(' index ')' '}'
 

complex_nameは対応するRSMAPcomplexの名前で、indexはスケジューラーがこのジョブのRSMAPから選択する要素のインデックスで、0から始まります。

 

例:
リソースマップがホスト上でこれらの値をgpu_map=4(0 1 2 3)のように定義する場合、次のようなqsubコマンドラインが使用されます。


# qsub -l docker,docker_images="*some_image*",gpu_map=2
-xd "--device=/dev/gpu${gpu_map(0)}:/dev/gpu0,
--device=/dev/gpu${gpu_map(1)}:/dev/gpu1" ...

 

スケジューラーがリソースマップから要素"1"と"3"を選択すると、コマンドラインは次のように解決されます。
 

# qsub -l docker,docker_images"*some_image*",gpu_map=2
-xd "--device=/dev/gpu1:/dev/gpu0,
--device=/dev/gpu3:/dev/gpu1"...

 

これは、物理GPUの"gpu1"と"gpu3"がコンテナ内の仮想GPUの"gpu0"と"gpu1"にマッピングされ、同時にすべてのUniva Grid Engineジョブの中から現在のジョブへ独占的に予約されることを意味します。

4.1.19 Host Aliasing and Resolving

Univa Grid Engineは、Univa Grid Engineの実行中にhost_aliasesファイルへの変更をサポートするようになりました。定期的にDNSやNISなどのサービス名を更新すると、ホスト名が変更される可能性があります。さらに、管理者はhost_aliasesファイルを更新する可能性があります。これらの状況の両方が、Univa Grid Engineのホスト名解決に変更をもたらします。 Univa Grid Engineは次のような状況に対応するように拡張されました。

Univa Grid Engineの実行中にhost_aliasesを追加する:

Univa Grid Engineの設定の中に、結果として生ずる名前やマップされたホスト名のいずれも参照されない場合、host_aliasesファイルに新しいエントリを追加することはサポートされています。任意のUniva Grid Engine設定オブジェクトで参照され、変更または追加されるホスト名は無視され、メッセージはqmasterメッセージファイルに記録されます。

デーモン起動時の内部名前解決データベースの更新:
qmasterデーモンの起動時に、設定内のホスト名の変更が検出され、名前解決データベースがこの変更を反映するように調整されます。 名前解決の変更がexecutionデーモンノードに影響する場合は、管理者が再起動する必要があります。

 

その他の改善点:
ホスト名がシステムに入っている複数の場所(正規表現で使用される単純なホスト名、ロードセンサーによって報告されるホスト名など)で改善が見られました。過去にはスケジュール不可能なジョブやその他の問題が発生していました。最終的なUniva Grid Engineのバージョンでは、更新されたhost_aliasesのman pageと更新された管理ガイド(GE-6013)が得られます。

 

4.1.20 Intel Xeon Phi x200 (Knights Landing) integration

Univa Grid Engineは、Intel Xeon Phi x200(Knights Landing)プロセッサ用の統合を提供します。事前にコンパイルされたロードセンサーは、現在のクラスターおよびx200マシンの現在のメモリーモードを自動的に検出します。さらに、現在のMCDRAM分布が報告されます。詳細については、AdminsGuideGEの"Configure and Install Intel Xeon Phi x200 (Knights Landing) Processors support"を参照してください。
 

4.2 Full List of Fixes and Enhancements
4.2.1 Univa Grid Engine 8.5.0alpha1 (also fixed for a 8.3 or 8.4 patch release)

GE-2716 インタラクティブジョブ(qlogin、コマンドなしqrsh)で環境変数TZを正しく設定しない
GE-3392 PE名にワイルドカードがあるジョブ予約が正しく機能しない
GE-4229 余分なシンボルを削除して実行可能なサイズを小さくする
GE-4288 h_rtまたはs_rtの制限に関する混乱を招くメッセージ
GE-4296 qstat -j <job_id>の出力にio使用値の単位がなく、man pageで説明されていない
GE-4384 ユーザーリストはスペースで区切られたユーザー名を正しく処理しない
GE-4404 メモリ値がexecdによって報告された場合の丸め誤差
GE-4641 ジョブ優先度の計算でwait_timeが認識されないときに、job_idロールオーバーが発生した場合、job_idが高いジョブが死ぬことがある
GE-4739 メッセージファイルに固有のスレッド名を表示する
GE-4943 shepherdがAD認証に必要なFDをクローズする
GE-5033 qmaster_paramsのENABLE_SUBMIT_LIB_PATHを設定しても、環境変数LD_PRELOADには影響しない
GE-5045 コマンドを使用しないqloginおよびqrshが、予想される変数(たとえば、TERM)を継承しない。
GE-5074 sessionusers ACLがインストール後に存在しない
GE-5081 管理ガイドの"MONITOR_TIME"への誤った参照
GE-5156 入力ファイルとエラーファイルの存在しないパスを暗黙的に作成する必要がある
GE-5289 msvc redist dllについての注意をインストールガイドに追加する
GE-5332 DRMAA2ジョブテンプレートはネイティブ仕様の置換をサポートする必要がある
GE-5340 PE(..._proc_args、prolog、120秒のepilog) のハードコードされたタイムアウトが文書化されずに変更可能
GE-5401 この制限を処理するようにcgroupsが設定されている場合でも、execdによって行われる "h_vmem kill"
GE-5486 ジョブごとのプロファイリングを導入する
GE-5487 -masterqスイッチのパフォーマンス向上を導入
GE-5536 ジョブごとに複数のtmpdirを要求する
GE-5557 Grid Engineでグループを指定するために '@'が使用されるとき、プライマリグループとセカンダリグループを検索する機能を追加する
GE-5587 Cray XCロードセンサーがキュー内のスロットカウンタを更新できるようにする
GE-5588 最初の起動時、"/tmp/execd_messages.<pid> file"に記録されない通信エラー
GE-5595 GetAdminUser()が失敗し、ADMINUSERを 'default'に設定している
GE-5597 accounting_summary=trueの場合、PEジョブの "wallclock"使用が間違っている
GE-5605 win-x86用qping.exeのテストとリリース
GE-5624 あらかじめ定義されたユーザリストとマネージャまたはオペレータリストのUnixグループエントリが無視される
GE-5625 CUDAおよびXEON PHI complex属性のインストールが失敗する
GE-5637 1つのタスク配列に対してjsvタスクジョブ関連のパラメータが転送されない
GE-5638 Windows(win-x86)がジョブ終了コードを転送または収集しない
GE-5639 GE-5639 gid範囲の監視で、追加のグループIDを必ずしもブロック解除しない
GE-5641 ユーザーリストのman pageには、あらかじめ定義されたすべてのリストまたは特別な意味のリストに言及するべきである
GE-5643 qalter - 今のところ、排他的なconsumableを持つPEジョブでは機能しない
GE-5647 RQSが構成されているとき、qconf -mu、-au、-duトリガはクラッシュする
GE-5649 エラーシナリオの自動TSテストを追加する
GE-5653 ulx-amd64パッケージはHWLOCライブラリでビルドされていないようである
GE-5654 ジョブ関連の管理メールを送信するとき、execdがwin-x86ではクラッシュする
GE-5655 Qmasterがエラー"invalid task number 0"の後に応答しなくなる
GE-5656 qconf -keはexecd情報を完全にクリーンアップしない
GE-5663 特定の条件の下でhostをunheardに設定するとqmasterをブロックする可能性がある
GE-5664 アレイジョブは今のところ、qalterでconsumableを予約超過できる
GE-5672 Docker Remote APIと通信するためのライブラリを開発する
GE-5673 ジョブの損失の検出は、許可されたリソースリストに関する奇妙なエラーを記録している
GE-5674 qmasterクラッシュは、execdオブジェクトのqconf -mattrを使用してトリガーされる
GE-5678 dockerのバージョンと使用可能なイメージを報告するロードセンサーを実装する
GE-5679 送信クライアントに "-xdv"スイッチを追加して、ユーザーがDockerコンテナにマウントするディレクトリを指定できるようにする
GE-5680 選択したDockerイメージとshepherdにマウントするパスに関する情報を転送する
GE-5682 Docker APIを使用してジョブのオンライン使用を取得する
GE-5684 ジョブが終了した後に終了したdockerコンテナをクリーンアップする
GE-5685 Dockerコンテナで開始されるcoshepherdを実装して、その状態を維持し、メソッドとジョブを実行する
GE-5687 Docker Remote APIを使用してメソッドとジョブとシグナルコンテナを実行する
GE-5689 commlib内の外国のファイル記述子のサポートを修正
GE-5690 qquota "limit"値は-2^31としてレンダリングされる
GE-5693 docker通信ライブラリによるコンテナ統計情報の取得を修正
GE-5694 ログ内のイベントの指定 - 多くのイベントには"Errors"というラベルが付けられているが、恐らく"Warnings"である。
GE-5703 管理者ではないユーザーが自分のジョブのプリエンプションをトリガーできない
GE-5718 lothreadは予約情報をLicense Orchestratorに送信する必要がある
GE-5722 先取りされたLOジョブがqdel後に"dr"状態のままである
GE-5723 qalter -pはLOに転送されない
GE-5726 UGEクラスターのlicence_constraintsは更新されていない
GE-5728 同じ優先順位のジョブのプリエンプションのためにエンドレスループをサスペンド/非サスペンドする
GE-5731 qmod -pはadmin-hostsでのみ許可されている
GE-5732 より高い優先度のジョブを優先して使用するときは、ユーザは警告を受けるべきである。
GE-5734 大規模に緊密に統合されたパラレルジョブがそのホストに送信されると、execdがコアダンプする
GE-5737 Dockerジョブの場合、container_coshepherdによって設定された環境変数のパスを調整する
GE-5740 shepherdのlibnuma依存関係を修正して、コンテナ内のcoshepherdの起動を許可する
GE-5741 shepherdのコンテナ始動機構を修正する
GE-5745 すべての種類のエラーコードを含むman pageを追加する
GE-5746 dockerコンテナに意味のある名前を付ける
GE-5750 コンテナ作成構造体クリーンアップ
GE-5756 'docker'と'docker_images'complexを組み込みにする
GE-5759 ワーカーおよびリーダ要求キューのリクエストタイプに関する統計情報を表示する
GE-5760 要求の開始と終了(継続時間)に関する情報をDEBUGのlog_levelに追加する
GE-5763 スレッドプロファイリングごとの改善
GE-5764 UGEとLOのプロファイリング/モニタリング/ロギング/デバッグ機能の出力をまとめ、説明するsge_diagnosticsのman pageを作成する
GE-5767 ジョブスクリプトのサイズを制限する手段を追加する
GE-5768 keep_activeは、ファイルサイズに関係なくジョブのすべてのファイルを送信する
GE-5770 実行時にsge_qmasterのデバッグロギング(DPRINTF)をオン/オフする手段を追加する
GE-5775 すべてのDocker関連コンポーネントのログを改善する
GE-5779 dockerデーモンとの通信におけるエラー処理を改善する
GE-5796 qmasterがMONITOR_REQUEST_QUEUES=1でクラッシュする
GE-5798 RQSルールによるパフォーマンスの低下
GE-5803 Windowsのエラーログを強化する(win-x86)qloadsensor.exe
GE-5807 RQS計算のための情報を表示するためのスケジューラーのプロファリングを強化する
GE-5813 Windows(win-x86)では、execdは最初のCRをqloadsensor.exeに送信できないため、ロードを送信しない
GE-5814 Windows(win-x86)では、起動時にロードセンサーに関する誤った警告がログに記録される
GE-5816 commlib外部ファイル記述子のサポートはスレッドセーフではない
GE-5817 バインドのマウントポイントが一意でない場合、Dockerジョブが失敗する
GE-5818 プロファイル用のリソースクォータクリーンアップ
GE-5825 一括ジョブ削除のqdelパフォーマンスを向上させる
GE-5829 MemorySwappinessを設定できないため、いくつかのLinuxではdockerのジョブが開始できない
GE-5845 マスタでのクライアント登録イベント時またはトータルアップデート時の競合状態が起こる可能性
GE-5858 job_load_adjustmentsは、パラレルジョブがスケジュールされた後にスケジューラー内のジョブディスパッチが実行されないようにすることがある
GE-5860 プロファイリングおよびスタートアップ動作のための通信固有の拡張
GE-5865 keep_activeオプションは、すべてのジョブ関連ファイルを障害のあるジョブディレクトリにコピーしなし
GE-5870 Windows 10 Pro/Enterpriseのサポートを確認し、サポートされているOSのリストに追加する
GE-5876 クライアントイベントのデータを準備するために使用されないデータ構造の場所と種類
GE-5878 postgresスプーリングによるインプレースアップグレードでアップグレードスクリプト(inst_sge -upd)が破損する
GE-5880 一部のスケジューラープロファイリングラインでは、プロファイリングがゼロ値を示す
GE-5892 max_reservation > 0の場合、ジョブクラスによるRQS制限は機能しない
GE-5894 ジョブがプロジェクト要求を持っていても、プロジェクトが見つからないためにクラスタキューが拒否される
GE-5895 ホストまたはqinstancesはスケジューラーのディスパッチアルゴリズムによってスキップされるが、有効な理由は示されない。
GE-5902 スロットメモリリソースを要求するPEジョブは、十分なリソースが利用可能であるにもかかわらずスケジュールされない
GE-5907 緊密に統合されたジョブがkillされた後、shepherdが停止する
GE-5915 qmasterプロセスのロケールがJVM_threadによって歪められる
GE-5925 ジョブがすでに削除されているときの間違ったqdelメッセージ
GE-5933 起動/停止プロシージャを持つPEジョブ、または所有権を要求するprolog/epilogを持つジョブが、/dev/nullの所有権をジョブユーザーに変更する
GE-5978 DRMAA2監視セッションを使用する場合のパフォーマンスの低下
GE-5981 DRMAA2ジョブ情報の拡張機能としてメモリ使用量を追加する
GE-5993 存在しないLOライセンスを持つジョブを削除すると、qmaster segfaultsが発生する
GE-6030 commlibの内部ホスト名キャッシュを無効にする可能性
GE-6031 ネイティブWindows(win-x86)では、UGEジョブスターターサービスが予期せず接続を終了すると、実行中のジョブのshepherdが膨大なトレースファイルを生成する可能性がある
GE-6097 ログ要求処理が一定の閾値を超える
GE-6111 部分的に終了した配列ジョブで事前予約を削除すると、sge_qmasterがクラッシュする
GE-6152 ログスプールが特定のしきい値を超える
GE-6167 待ち時間のために新しいスケジューラープロファイリングラインを追加する
GE-6172 jdrmaa2のopenJobSession実装がない
GE-6174 qmasterがクラッシュする: "->>|C|!!!!!!!!!! QU_qname not found in element !!!!!!!!!!, host is removed from queue"
GE-6176 qdel -fは予期しないメッセージを表示する。例 デバッグ情報
GE-6221 特定のロギング設定でsge_qmasterがクラッシュすることがある
GE-6230 ネイティブ仕様フィールドDRMAA2のNull値によりSegfaultが発生する可能性がある
UWSA-164 事前予約に開始時刻が含まれていない
UWSA-165 ARを作成すると誤った期間エラーが発生するUWSA-175 resourceNumericValuesのCUDA load_sensor値をサポート

 

4.2.2 Univa Grid Engine 8.5.0alpha1 (also fixed for a 8.4 patch release)

GE-3146 リソース予約はSGEカレンダーで壊れていますGE-3227 ARは、サブミッション時に既に無効となったキューにスケジュールされるべきではない
GE-4158 一部のジョブクラス属性がman pageやユーザーガイドで正しくない
GE-4293 qsub -w e -l exclusive=trueは、要求が有効であっても、ジョブを拒否する
GE-4425 SGE_LONG_QNAMES=-1は、qstat segfaultにつながる
GE-4497 グローバルホストで要求できないconsumableが設定されている場合、PEジョブはスケジュールされない
GE-4603 ジョブ <jid>はPE <pe_name>で実行できない。スロットが0個しかないためである。
GE-4672 default_jcとenforce_jcはman pageには記載されていない
GE-4908 ネイティブWindows(win-x86)UGEバイナリは、共有のルートディレクトリである場合、SGE_ROOTディレクトリを見つけることができない
GE-5129 CKPTインタフェースの通常の"ckpt_command"は実行されない
GE-5135 ユーザーは作成されたPROFILEを取得するために、各ネイティブWindows(win-x86)execホストに少なくとも1回ログインする必要がある
GE-5345 host_aliasesを自動的に解決するUGE
GE-5492 cuda loadsensor bashスクリプトの互換性の問題
GE-5509 host_aliasesがリソースhostname OR要求に対して機能しない
GE-5510 host_aliasesがqconf -purge要求に対して機能しない
GE-5524 ジョブサブミッションの改行がレポーティング/アカウンティングラインとqstat -jを中断する
GE-5528 ホスト名の変更を解決すると、qmaster/execdデーモンの起動時に、影響を受けるすべてのデータオブジェクトの更新がトリガーされる。
GE-5547 install_cuda_complexes.shは'\n'を正しく処理しない
GE-5577 サーバ側のJSVパラメータl_hard、l_soft、およびmasterlには、ジョブクラスのアクセス指定子が含まれている
GE-5579 Cray XCの統合は、すぐに使えるクラスタで複数のCrayをサポートする必要がある
GE-5589 ホストが再解決されると、host_aliasesファイルへの変更を更新する必要がある
GE-5604 install_cuda_complexes.shが無効なcomplexを生成する
GE-5635 RSMAP内の同じリソースが複数回出現していない
GE-5667 UGEスターターサービスがマウントされたネットワークディレクトリで動作しないことをwin-x86インストーラーとドキュメンテーションで説明する
GE-5671 DockerとUGEの統合
GE-5675 Univa Grid Engineとsystemdの完全統合
GE-5692 stdin/stdout/stderrストリームを処理するsge_container_shepherdを拡張して、インタラクティブジョブとパラレルジョブを可能にする
GE-5710 変更されたホストエイリアスが起動時にqmasterのabort()を起動する可能性がある
GE-5712 すべてのタスクが同時に実行されるか、タスクが全く実行されない並行アレイジョブが必要
GE-5714 アカウンティングにおける信じられなく高いru_wallclockの値
GE-5717 Grid Engineデーモンの起動時の基本的な環境チェック
GE-5739 ホスト名を解決できない場合(エラーメッセージ不明)、qmasterインストールスクリプトはadminホストを追加しない
GE-5747 ホストクロックが変わるとsharetreeが間違っている可能性がある
GE-5758 静的クライアントが再接続しようとしたときのcommlibでのセグメンテーション違反が起こりうる
GE-5774 Dockerコンテナでパラレルジョブのタスクの実行を可能にする
GE-5776 UGEディレクトリのリストをDockerコンテナに正しくバインドする
GE-5780 opensslライブラリを現在のバージョン1.0.2にアップデート
GE-5781 システム時刻が早い時刻に設定されている場合、execホストは未知状態(u)になる
GE-5787 システム時刻がより早い時刻に設定されていると、報告されるwallclockの時間が非常に短い
GE-5792 dockerジョブはexecdの再起動でfailと報告される
GE-5795 スケジューラースレッドのシャットダウンがトリガされると直ちにディスパッチループを終了する
GE-5821 実際のDockerの統合が機能するときは、load sensorとstarter_methodを使用する基本的なDockerの統合を削除する
GE-5834 ホストグループ上のRQSルールのパフォーマンスが悪い
GE-5849 スレーブタスク用に、新しいmasterlスイッチのs_rss制限設定が適用される
GE-5877 max_aj_instancesと-tc submitオプションは、登録されたタスクでは尊重されない
GE-5879 max_aj_instancesが0(無制限)に設定されていると、送信オプション-tcはもはや効果を持たない
GE-5901 DockerコンテナがDockerイメージで設定されたアプリケーションを自動的に起動できるようにする
GE-5913 ネイティブWindows(win-x86)では、wl_connect_to_service()関数とサブ関数のエラーログを改善する
GE-5920 使用されるバッファのサイズが小さすぎると判明した場合、passwd情報を取得するすべての関数がサイズを変更するわけではない
GE-5935 Dockerデーモン > 1.9からのHTTPレスポンスのヘッダが正しく処理されない
GE-5955 host_aliasesがsge_shadowdで動作しない
GE-5962 Dockerデーモンはローカルでは利用できないときにイメージをダウンロードしない
GE-5989 ジョブユーザーがdocker固有のファイルを作成するための十分な権限を持っていない場合、ジョブはDockerコンテナで開始されないGE-5991 host_aliasesに使用されるホスト名は大文字と小文字を区別しないで処理される必要がある
GE-5994 重大な"setup failed"ログ・メッセージでsge_qmasterの起動が失敗する
GE-5995 prologが失敗してもジョブが実行される
GE-6022 ネイティブWindows(win-x86)実行デーモンインストーラが不必要にsgepasswdファイルを必要とする
GE-6023 ネイティブWindows(win-x86)送信クライアントがsgepasswdファイルの秘密鍵を必要とする
GE-6028 Windows Active Domain経由のUser/group管理がUGEを破損する可能性がある
GE-6036 host_aliasesが変更された後のexed再起動でのジョブの消失
GE-6039 クライアントが"failed to extract authentication information"というエラーを報告する
GE-6042 スケジューリング実行に以前のバージョンのUGEよりも時間がかかる
GE-6045 ネイティブWindows(win-x86)では、win_getpwnam_r()は、不十分な権限で呼び出されても常にユーザープロファイルを読み込もうとする
GE-6046 dockerコンテナ内のトレースファイルへの無限ループ書き込み
GE-6049 デフォルトジョブクラスが正しく使用されていない
GE-6056 Cray XCの統合は、より新しいUGEバージョンのepilogのタイムアウト値を無制限に設定する必要があります
GE-6059 epilogがSIGABRTシグナルを受け取ったときにジョブが再スケジュールされる
GE-6064 ネイティブWindows(win-x86)では、(Un)LoadUserProfile()のエラー処理が実際のエラーメッセージを上書きする
GE-6067 カレンダーを含むキューを追加するとエラーメッセージが生成され、このキューにジョブがスケジュールされない
GE-6068 sge_container_shepherdに "the shepherd_about_to_exit"ファイルに対する書き込み権限がないため、インタラクティブDockerジョブが失敗する
GE-6073 qsubは"-binding"または"-t"パラメータの複数の使用をサポートしていない
GE-6076 ネイティブWindows(win-x86)では、実行ホストの最初のジョブが終了すると、すべてのジョブスプールディレクトリが削除される
GE-6087 ExecdポートがないときにQmasterポートが見つからないというエラーメッセージが表示される
GE-6095 ログジョブの検証時間が一定のしきい値を超えている
GE-6098 OSがLSBを使用しているときにRCスクリプトがインストールに失敗する
GE-6099 update-rc.dがRCFILEとして使用されているときにRCスクリプトがアンインストールされない
GE-6100 UGE Job Starter ServiceとSGE_Starter.exeの間の名前付きパイプの名前が必ずしも一意ではない
GE-6109 dbwriterログがa_iopsフィールドの無効な整数値を示している
GE-6112 レポートのar_attrレコードとar_logレコードのレコード時間が正しくない
GE-6113 /logが指定されていなくても、win-x86のSGE_Starterは常にログに記録される
GE-6117 dbwriter / arcodb - MySQLバックエンドを使用してレポートファイルを解析する際のエラー
GE-6118 コマンドジョブでqrshを起動すると、ネイティブWindows(win-x86)上のUGE Job Starterサービスがクラッシュすることがある
GE-6126 dockerの自動起動ジョブを送信すると、ジョブ名が与えられなければ失敗する
GE-6148 緊密に統合されたパラレルジョブのスレーブタスクが終了すると、ネイティブWindows(win-x86)でuge_js_service.exeがクラッシュする
GE-6149 ネイティブWindows(win-x86)から緊密に統合されたパラレルジョブのスレーブタスクを送信することはできない
GE-6156 dockerジョブが送信されたときにexecdがクラッシュし、メモリリソースを要求する
GE-6163 sge_mirror_process_events()のエラーにより、600秒後にタイムアウトするまでスケジューラーが動作しなくなる
GE-6173 ヘルプ出力とman pageにqstat -sの特定の状態の説明がない
GE-6181 設定ファイルで無効になっていても、systemd initscriptを使用して自動的インストールする
GE-6185 Dockerデーモンがビジー状態のときにジョブの開始が失敗する
GE-6186 sge_container_shepherdは未処理のIJS制御メッセージとコンテナ関連メッセージを区別できない
GE-6188 Windows(win-x86)インタラクティブアンインストーラは、デフォルトでサービスを削除する必要がある
GE-6193 ミラーインターフェイスがMOD QUEUE INSTANCE failイベントに、予期しないエラー"callback function"("callback_default")を報告する
GE-6195 ADD_TO_RC=falseであっても自動インストール中に起動スクリプトがインストールされる
GE-6200 ビルトインのインタラクティブジョブの子shepherdが、shepherd_trace()の相互排除を無期限に待っている
GE-6203 Go(golang) > 1.6で構築されたDockerデーモンとの通信が機能しない
GE-6211 提供されたDockerコンテナ名が自動的に生成されたDockerコンテナ名によって上書きされる
GE-6219 INFOメッセージにl10nが足りず、メッセージの最後の改行文字が間違っている
GE-6262 壊れたsge_usleep()は非常に長いスリープを引き起こす可能性がある
GE-6168 sgepasswdの問題

 

4.2.3 Univa Grid Engine 8.5.0alpha1

GE-575 ウォールクロック時間を超えるパラレルジョブが強制終了されない
GE-3909 すべてのexecdノードではないが、ユーザーとサブミットされたジョブがゾンビ状態になっている
GE-4991 uid!=euidの場合、動的ライブラリの読み込みに失敗する
GE-5317 qstat -j出力から"verify_suitable_queues"を削除する
GE-5505 再起動され、特定のエラー状態にあったジョブは以前t-stateにとどまっている
GE-5540 GE-5949 drmaaはsubmit_cmdラインを提供しない
GE-5560 DRMAA2のJavaバインディング
GE-5583 コマンドラインでのOR要求の必要性を回避できるようにRSMAPを強化する
GE-5600 ジョブが実行できない場合、Windows(win-x86)キューインスタンスがエラー状態に設定される
GE-5608 状態別にアトミックにジョブを削除する
GE-5648 追加のグループIDを使用するときのクリーンアップとexecdジョブの実行開始のスピードアップ
GE-5651 ディレクトリサービス(NIS、LDAP、Active Directoryなど)に応じてライブラリ関数を起動するUGE呼び出しの動作を統一する
GE-5657 RSMAP内の同じ名前の要素/インスタンスのみが選択されるようにRSMAPを強化する
GE-5658 REGEXを介してインスタンスを要求できるようにRSMAPを強化する
GE-5659 上記のORが1つのタイプだけに制限されることをRSMAPで設定できるようにする
GE-5660 RSMAP定義のショートカットを許可する
GE-5661 ロードセンサーがRSMAPを制限できるようにする
GE-5668 Posix優先度0はもはや0.5にスケーリングされない
GE-5696 ジョブクラスにxd switchを追加する
GE-5721 qhold/qrlsメッセージの改善と削減/ログ
GE-5855 クライアントが既に消えている、保留中の読み取り専用の要求をスキップする
GE-5856 保留中のワーカー要求のリストの'old'execdレポートを置き換える
GE-5875 コンポーネントのスレッド固有のデバッグ出力をフィルタリングできる機能がない
GE-5899 ARは、ARの終了前に実行中のジョブのクリーンアップ後にジョブを受け入れる
GE-5957 Ctrl+Cを押したときqsub -syncでサブミットされたジョブが強制終了されない
GE-5985 sharetreeアルゴリズムはジョブではなくスロットを考慮する必要がある
GE-6015 新しいload_sensorがセットアップされたときにload_valuesを取得するには2つのload_reports_intervalsが必要
GE-6054 qrshで開始されたdockerジョブに不正な環境がある(SGE_ROOT、...)
GE-6075 すべてのlGet/lSet関数のCULLパフォーマンス向上によるスケジューラーパフォーマンスの向上
GE-6088 ARとSRがレポートファイルに正しく書き込まれていることを確認する
GE-6096 qdelメッセージの改善と削減/ログ
GE-6110 通信レイヤの最適化による通信オーバーヘッドの削減
GE-6120 sge_execdがメッセージファイルで"can't resolve hostname  _sge_pseudo_host"と報告する
GE-6128 opensslを1.0.2jに更新
GE-6134 qmasterが、qmasterが処理しようとする空のレポートリストを受け取る
GE-6136 execdによって送信されるレポートのため、qmasterでのロック処理は、qmasterの速度低下を引き起こす可能性がある
GE-6138 execdのレポートは常にグループで送信される。 Qmasterはすべて同じロックを使用する。
GE-6139 ジョブレポートのフラッシュ時間を設定する機能を導入する @execd
GE-6142 execdのすべての読み取り専用要求は、ワーカースレッドによって実行される
GE-6162 マルチタイムカレンダーを含むSRがスプールされると、qmasterが起動時にクラッシュする
GE-6169 パッキング操作のパフォーマンスを改善し、パックバッファ内のオブジェクトのサイズを縮小する
GE-6232 sge_execdでジョブ終了の報告が最大1秒遅れる
GE-6241 jemallocをバージョン4.3.1に更新する
GE-6242 スケジューラーが申し込むイベントの数を減らす
GE-6250 スケジューラージョブ開始オーダーの配信を高速化
GE-6266 ジョブのxd属性に-clearpスイッチが使用できない
GE-6267 -modsがrou属性で正しく動作しない
GE-6268 JCのrou属性はman pageにおいてリスト属性としてタグ付けされていない
GE-6269 ジョブのサブミットに使用されたAPIまたはサブミットクライアントにより、JB_mail_listのXML出力が正しくない可能性がある
GE-6153 CSPモード通信とsgepasswdファイル暗号化に強力な暗号を使用する

4.2.4 Univa Grid Engine 8.5.0alpha2

GE-3060 ファイアウォールを介して接続するには、qrsh/qloginは指定されたポート番号のみを使用する必要がある
GE-3341 複数のスロット範囲が要求された場合、JSVでpe_minの値が正しくない
GE-3928 qsub '-b y'のデフォルトシェルの文書化および/または変更
GE-5631 -mods/-clearsがmasterlで動作しない
GE-5632 "masterl"の-adds/-mods /-clearsqsubのman pageに記載されていない
GE-5906 test_drmaa2で起こりうる無限ループ -> test_job_wait_all
GE-5980 getInfo()が常にnullを返す
GE-5997 引数リストにおいて、Schedulerが選択する値のプレースホルダを-xdオプションに指定できるようにする
GE-6000 UGEのドキュメントをHTML形式で利用できるようにする
GE-6026 数字で始まるジョブ名の文書を修正する必要がある
GE-6027 スケジューラースレッドがクラスタ構成のロギングを繰り返す
GE-6131 postgresライブラリをバージョン9.6に更新
GE-6145 特定のsge_requestファイルでqsubクライアントがクラッシュする
GE-6153 CSPモード通信とsgepasswdファイル暗号化に強力な暗号を使用する
GE-6154 設定APIは通常のパッケージビルドの一部である必要がある
GE-6164 qmaster、execd、およびschedulerの各パラメータは、man pageとドキュメンテーションにおいて、大文字でなければならない
GE-6165 qmasterが未知のクラスタ構成パラメータを読み込むときに警告を記録する
GE-6166 qmasterとexecdが未知の*_paramsを読み取ったときに警告を記録する
GE-6168 sgepasswdの問題
GE-6170 ジョブエラーの場合、qsub_timeが1970年の時刻に設定されるGE-6192 ジョブのライフサイクルにおけるスプール処理の削減
GE-6251 Rest and Config APIは 'port_range'パラメータもサポートする必要がある
GE-6283 ジョブクラスのxd属性のスイッチと引数は、qsubのコマンドラインでは可能であるが、スペースで区切ることできない
GE-6289 ロードセンサースクリプトが際限なくトリガーされる(構成されたload report intervalとは関係なく)
GE-6291 スケジューラープロファイリングでイベントマスタ設定の更新に時間が示されない
GE-6314 xd属性のJCバリアント出力がない
GE-6317 リソースブックキーピングが壊れている、スケジューラーがは大きなパラレルジョブのディスパッチを停止する、qmasterのオーバーロードが発生する
GE-6323 スケジューラーが、マスタキューリクエストがなくても、スケジューラーブルジョブではないmaster_queueを検索しようとする
GE-6329 mem_freeがqsubコマンドの要求されたリソースの一部である場合、qalter -modsを使用してリソースを変更すると失敗する
GE-6331 dockerの自動起動ジョブは実行されるが、exit_statusは1で開始/終了時刻がない
GE-6336 qsub -qパラメータの正しくないホスト名解決
GE-6337 一時的な組み込みロード値がスプールされる
GE-6358 AIXでsge_execdがクラッシュする可能性がある
GE-6341 Config APIは新しいジョブクラス'xd'パラメータもサポートする必要がある
GE-6345 Solaris 9ではなくSolaris 10でsol-sparc64パッケージをビルドする
GE-6352 qalterが、ジョブクラスのために変更が許可されていなくても成功メッセージを表示する
GE-6353 shepherdがジョブ終了後にMacOSや恐らく他のOSでもでクラッシュする
GE-6357 FQDNホスト名が63文字に制限される
GE-6359 旧式のロードセンサースクリプトを削除する
UWSA-177 自動インストールが壊れている -> SGE_CELL設定がない
UWSA-179 ドキュメントには、ログを調整するための正確なファイル名を記述するべきである
UWSA-183 masterlスイッチを使用するとUGERest Apiがクラッシュする

4.2.5 Univa Grid Engine 8.5.0beta1

GE-4876 ネイティブのWindows PDCレポートにIO値とメモリ値を作成する
GE-4956 コンピュータについてqmonには誤った著作権情報が含まれている
GE-4967 一般的なドキュメンテーションとman pagesのタイプミスと問題
GE-5567 シェアツリーの使用量の計算にはCPU、メモリ、およびIOのみが使用されている
GE-5721 qhold/qrlsメッセージの改善と削減/ログ
GE-5999 プリエンプトされたジョブがP-stateに留まる
GE-6107 適切に起動したDockerデーモンに関する情報をAdminGuideに追加する
GE-6316 UGEドキュメントの一部を修正する
GE-6332 dockerコンテナは、ジョブ終了後に必ずしも削除されない
GE-6354 qalterメッセージのログを改善する
GE-6372 Dockerのジョブ処理におけるexecdクラッシュの可能性
GE-6374 Docker 1.13.0でジョブの開始に失敗する
GE-6375 qmasterでジョブが失われると重大な問題が発生することがある
GE-6376 Dockerジョブの場合、間違ったmemオンラインとアカウンティング使用量が報告される
GE-6381 外部ロードセンサーによるハンドシェークの問題の可能性
GE-6382 qmon complexダイアログでAAPRE cplx列が正しく設定されない
GE-6383 ジョブが中断されるとqmonがクラッシュする
GE-6387 リモートホスト上でコマンドを実行する必要があるが、SGE_ROOTが設定されていない場合、qtcshがエラーメッセージを表示しない
GE-6388 qmaster messagesファイルに予期しないCRITICAL ERRORが記録される
GE-6394 accounting_summary=trueの場合、wallclockは、誤って、すべてのPEタスクで合計される
GE-6395 qalter -w pがすべてのschedd_job_infoメッセージを表示しない

4.2.6 Univa Grid Engine 8.5.0 FCS

GE-4170 ./inst_sge -updの-help
GE-4514 Spooleditは奇妙な 'CONFIG:CONFIG:global'エントリを作成することがある
GE-4699 ユーザー'ab'が既に存在する場合、ユーザー'a'のCSP資格情報を作成できない
GE-5502 インストールとアップグレードスクリプトのモジュール化
GE-5804 ユーザーオブジェクトに非常に多い使用量のデータがスプールされる
GE-6013 host_aliasesのman pageと管理者ガイドの強化
GE-6026 数字で始まるジョブ名のために、文書を修正する必要がある
GE_6216 ネイティブWindows(win-x86)実行デーモンでのメモリリークを修正
GE-6289 ロードセンサースクリプトが際限なくトリガーされる(構成されたロードレポート間隔とは関係なく)
GE-6291 スケジューラープロファイリングがイベントマスタ設定の更新に費やされた時間を表示しない
GE-6336 qsub -qパラメータの正しくないホスト名解決
GE-6341 Config APIは新しいジョブクラス'xd'パラメータもサポートする必要がある
GE-6357 FQDNホスト名が63文字に制限される
GE-6362 8.5.0でメモリリークとアクセスの問題を修正
GE-6384 ARがキュースロットをオーバーサブスクライブする
GE-6397 初期起動フェーズでのexecdのシャットダウンに時間がかかるGE-6398 Dockerコンテナで実行されているジョブが、間違ったグループ所有権を持つファイルを書き込む
GE-6399 アップグレードスクリプトのバージョン比較で特定のバージョンが見つからない場合は、アップグレードは停止される必要がる
GE-6400 インストール時にexecdによって無効なロードおよびメモリ使用率が報告される
GE-6401 qmon Modifyキューのダイアログが'no default value for slots'で失敗する
GE-6405 qmon Cloneキューのダイアログが"Multiple values for one queue domain/host..."で失敗する
GE-6409 自動起動のDockerジョブにより、shepherdはジョブ終了時に100%CPUを何秒も使用する
GE-6411 RQSを使用するとジョブが予約を取得しないことがある
UWSA-184 REST APIで'qmod -p'プリエンプション機能を公開する

4.2.7 Univa Grid Engine 8.5.1

GE-4305 基本的なシェアツリーの使用事例のより良い文書化
GE-4389 コアバインディングのJSV変更例を含むqsubのman pageを強化する
GE-5650 割り当てルール$fill_upで、マスタリソースとキュー要求が提供されたとき、スレーブリソース要求に従わない
GE-5806 間違ったRQS計算のためにパラレルジョブが起動しないことがある
GE-5941 証明書を更新するとsgepasswdファイルが読めなくなる
GE-6020 ネイティブWindows(win-x86)関数がユーザーのログオンを何度か再試行できるようにする
GE-6103 バインディングが要求されない場合でもジョブがコアにバインドされる
GE-6183 sge_shepherdはマスタータスクに非常に高い制限を設定する
GE-6237 サブミッション送信中に'-r no'が指定されていてもジョブが再開されている
GE-6402 スケジューラーはRQSルールが変更されている間、RQS制限を尊重しないことがある
GE-6407 config-apiのドキュメントを追加する
GE-6413 shepherdはpull Docker画像リクエストに対するすべてのエラー応答を処理しない
GE-6434 バインディング要求の長いリストのqstatに不完全なバインディング要求が示されている
GE-6462 ネイティブWindows(win-x86)で、等号を含む環境変数の値が切り捨てられる
GE-6467 SYSTEMDをアップグレードして使用すると、インストーラがqmasterを再起動できない
GE-6478 loadsensorのロード値が非常に長いと、execdのsegfaultが発生する
GE-6480 無効なRSMAP範囲を初期化すると、エラーメッセージが間違っているか間違っていて、間違った終了ステータスとなる
GE-6489 外部ロードセンサーを使用すると実行デーモンがデッドロックになる可能性がある
GE-6490 ロードセンサー固有のエラーがexecdメッセージファイルに記録されない
GE-6493 RSMAPマップエントリ選択要求が機能しない
GE-6510 コアバインディング:striding-strategy数が間違ってコアを必要とし、実行可能なホストを拒否する
GE-6511 gdi_request_limitsは文書化されているとおりに動作しない
GE-6521 Qmasterがクラッシュし、LOが有効にされ、ジョブの依存関係が発生する
GE-6534 sge_execdがGPGPUジョブにより、コアダンプとともにクラッシュする
GE-6537 RSMAP-rangeをサブミットすると、-addsを使用したジョブが壊れる
GE-6553 "-l h=<host>"を指定してPEジョブを送信すると、RQSの制限が正しく適用されない
GE-6573 ネットワークを介して転送されたqhostクライアントの要求データサイズを削減
GE-6575 stree-editユーティリティが壊れた
GE-6583 スケジューラーがマスタータスク固有の要求を使用しているパラレルジョブのホストまたはキューインスタンスを間違ってスキップする
GE-6587 Vをyesに設定したJCを使用してジョブを作成する場合は、sge_qmasterを中止する
UWSA-81 localhostでのみリッスンするためのサポートを追加する
UWSA-186 要求されたjobEnvironmentがジョブに表示されない
UWSA-188 jobEnvironment ugerestsdkにjsonコンバータのエラーが含まれている
UWSA-189 ugerestは同じスケジューラーのconfを2回表示している
UWSA-190 restlet-jse-2.3.6からrestlet-jse-2.3.10へのアップグレード

4.2.8 Univa Grid Engine 8.5.2

GE-5569 ネイティブWindows(win-x86)sge_execdは、act_qmasterファイルにアクセスできない場合終了する。
GE-6454 Docker統合のドキュメントを改善する
GE-6236 アカウンティング行に1023文字がある場合、Solarisではアカウンティングファイルが破損する
GE-6615 ロードセンサーを起動できない場合のエラーログを強化する
GE-6618 qloadsensorが動作しない場合、ネイティブWindows(win-x86)実行デーモンがクラッシュする
GE-6620 qloadsensor.exe(win-x86)からのエラーメッセージが、execdメッセージファイルに転送されない
GE-6623 ネイティブWindows 10(win-x86)のPerformance Monitor UsersグループにUGE管理者ユーザーを追加する
GE-6629 qhost NSOCとNCORがlx-arm64で正しくない
GE-6637 rqs制限定義でホストグループを使用すると、起動時にqmasterが短時間停止したり、rqsが要求を変更することがある
GE-6640 PDHサービスの初期化中にエラーが発生した場合、qloadsensor.exeは"no error"と報告する
GE-6644 任意のepilog SIGSEGVと"execed_params INHERIT_ENV=false"でエラー状態のキューを設定する
GE-6660 IDなしでRSMAPを要求するとqmasterがクラッシュすることがある

4.2.9 Univa Grid Engine 8.5.3

GE-3721 qstat -j "*" -u "user1"が動作していない
GE-5290 -j "*"が指定されている場合、qstat (-xml)はフィルタースイッチを受け入れない
GE-6432 qdel -u "*"は管理者だけに許可され、オペレータには許可されていない
GE-6483 Docker要求のプレースホルダをUserGuideおよびman pageに記録する
GE-6497 sharetreeの過去の使用を無効にするスケジューラー設定でhalftime -1の設定をサポートする
GE-6568 UGE RESTによるジョブの強制削除を許可する
GE-6578 host_aliasesに関連付けられたカレンダーエントリを複製する
GE-6595 dockerインタラクティブジョブはqdelで削除できない
GE-6617 ネイティブWindows(win-x86)での回避策を、起動のためのsgeexecd.batスクリプトで提供する。/b にてバグ出力(Windows 10、バージョン10.0.15063)
GE-6664 ホスト別名が設定されている場合、qsub -sync yは"commlib info:successfully updated host aliases (add:0, del:0)"を報告するGE-6670 グローバル設定パラメータ"gdi_request_limits"がエイリアス化されたホスト名で動作しない
GE-6671 ugerestサービスユーザーと同じユーザーのsudo要求が拒否される
GE-6678 commlibでのaccept()処理の改善
GE-6682 adminホストまたはsubmitホストがない場合、execホストは起動できない
GE-6687 RSMAP-topology-masksジョブと-bindingジョブが間違ったスケジューリングの決定をする
GE-6695 qrstatは、standing reservationのcal_depthおよびcal_jmp情報を出力しない
GE-6696 save_sge_config.shは、新しいバージョンへのアップグレードのためにadvance/standing reservationsをダンプする必要がある
GE-6697 qstat -j "*"は、sge_qstat要求ファイルに設定された "$user"プレースホルダをサポートしていない
GE-6706 ジョブの複数のアレイタスクがホスト上で実行されている場合、予期しないログと誤ったアカウンティングが発生しうる

4.2.10 Univa Grid Engine 8.5.4

GE-5835 ワイルドカードPEによる長いスケジューリング時間とリソース予約
GE-5848 DockerジョブでUGE cgroupを使用できるようにする
GE-6356 drmaa2_j_get_infoは完全なジョブ情報を提供しない -> すべてのフィールドが満たされているわけではない
GE-6709 テストDRMAA1アプリケーションでの膨大な仮想メモリ要件
GE-6713 Solaris上のshadowdがsge_qmasterを開始できない
GE-6728 PREFER_SOFT_REQUESTSスケジューラーのパラメータに関して、sched_conf.5のman pageが不正確
GE-6734 ジョブのスケジューラー情報メッセージが間違っている
GE-6739 リソースが使用可能であっても、pe範囲を要求するパラレルジョブがスケジュールされない
GE-6741 RSMAPリソースを使用してARにサブミットされたジョブはスケジュールされない
GE-6744 qrstatはキュー要求(-q)と即時要求(-now y)を出力しない
GE-6754 新しいセッション(qconf -asi)を追加すると、adminのみのホストでは動作しない
GE-6755 save_sge_config.shは、すべてのadvance/standing reservationsをダンプしない
GE-6764 RQSルールによる非常に長いディスパッチ時間がスケジューラーのタイムアウトにつながる
GE-6771 qsub -syncは、ネイティブWindows(win-x86)で直ちに停止する
GE-6777 カレンダーの状態遷移時に、巨大な誤ったリーダースレッドのログ記録
GE-6782 qstat -njdがman pageに記載されているようには動作しない
GE-6785 マネージャとオペレータリストの補足グループは、ジョブ削除のアクセス検証中には無視される
GE-6786 'qmaster_params':'gdi_timeout','gdi_retries','gdi_ping'の間違ったログ
GE-6787 qmasterとexecdのログ"invalid value (33026) for ar->op"
GE-6788 古いロードレポート受け取りのqmasterのログ
GE-6796 カレンダーの変更/状態 遷移により、最大1秒間のカレンダーイベントが繰り返されることがある
GE-6799 sge_qmasterメッセージファイルの予期しないログメッセージGE-6812 execdでdockerジョブを開始すると、sge_shepherdプロセスがすべてのメモリを使い果たす可能性がある
GE-6814 非"lo_*"complexエントリを削除すると、lothreadのエラーログがトリガされる
GE-6818 エラーログ:getgrgid(...)が失敗しました:数値が範囲外ですUWSA-193 execd_params ENABLE_MEM_DETAILS=1の追加ジョブ使用値がない

4.2.11 Univa Grid Engine 8.5.5

GE-6508 アカウンティングは 'qdel -f jobID'の間違った失敗と終了状態を示す
GE-6835 変更されたホスト名が別のホストの部分文字列と一致する場合、変更されたホスト名のホスト設定を更新しない
GE-6836 qmasterのシャットダウンと再起動後のexecd再接続の動作を改善する
GE-6841 Dockerデーモンの通信タイムアウトを設定できるようにする
GE-6843 最新のDocker CEバージョン(17.09)との統合
GE-6852 qrshクライアントが強制終了され、epilogが設定されていると、インタラクティブなDockerジョブが完了するまでに非常に時間がかかる
GE-6853 dockerのデバイスマッピングが使用されていると、保留中のジョブを削除できないことがある
GE-6855 sge_qmaster abort()は、重大なログ"got NULL element for RUE_utilized_now"を伴う
GE-6862 リリースノートには、FCSで導入された機能についても'最新バージョン'が含まれています
GE-6869 archスクリプトはMac OS X High Sierraをサポートしていない
GE-6874 execdスプーリングディレクトリがnfs経由で共有されている場合、ノーマルdockerジョブはno_root_quashが必要
GE-6901 ファイル作成の問題が発生した場合、"messages"ファイルではなく"messages"の代わりに".<digit>"という名前を付けることができる
GE-6913 qping出力にスケジューラースレッドIDを公開する
GE-6916 CAディレクトリが既に存在する場合、sge_caスクリプトはインストールの質問をスキップするため出力を表示しない
GE-6939 パラレルアレイタスクの非常に長いチケット計算時間
GE-6946 配列タスクを削除すると、-tc <number>条件が破られる
GE-6948 Dockerの応答からエラーメッセージを解析し、それをジョブエラーの理由として提供する
GE-6972 gridengine/カーネルの問題
GE-6973 gridengine/カーネルの問題
GE-6974 gridengine/カーネルの問題
GE-6983 execd強制制限によってジョブが強制終了された場合、アカウンティングファイルのジョブが失敗した状態は、これを反映する必要がある
GE-6997 ネイティブWindows(win-x86)execdは、qloadsensor.exeを見つけたり、起動したりすることができないことを記録する必要がある
GE-7002 バージョン17.12までのDockerでDocker統合をテストする
GE-7008 Idなしで定義されたRSMAPcomplexを要求するジョブはスケジュールされない

© 2006-2019 HPC Technologies Co., Ltd. All rights reserved.