大容量メモリーを搭載する計算機を長期間連続動作させ結果を求めるHPC計算機において、計算機の安定稼動を実現するためにはメモリーエラー対策が重要です。その対策を考えるため代表的な3種類のメモリーエラーの原因について考えてみます。メモリーエラーの原因の1種類目は「初期不良」によるメモリーエラーです。これは半導体ウエハ処理工程で発生した欠陥や不具合が半導体メーカーのスクリーニングを通り抜け、潜在的不良が残されたまま製品化されたものが、システムに実装後に不良を顕在化させメモリーエラー発生させるものです。2種類目は安定動作していたものが「経年劣化」によりメモリ不良を発生させるものです。3種類目は「ソフトエラー」と呼ばれるメモリーエラーです。これは宇宙線が原因となり非破壊的にメモリー値が反転するシングルビットエラーを起こすものです。この頁ではシステムの安定稼動を目指すため、その大きな阻害要因となるこれら3種類のメモリーエラーに対して、HPC計算機の運用実態に即した適切な対策を検討します。
「初期不良メモリー」対策の基本はシステム完成後に行うスクリーニングと早期部品交換です。この対策を具体的な作業の流れでご紹介します。組み立てが完了したHPC計算機は試運転を行います。その際にLinpack HPLなど負荷の高い数値計算を長時間連続動作させメモリーエラーがより発生しやすい条件を与えます。もしメモリーエラーが発生してもシングルビットエラーならECC(誤り訂正符号) により自動修復されるため運転には影響しません。そしてメモリーエラーが発生した情報はシステム管理ツールに引き渡され、エラー情報として記録されます。また計算機の前面に付いているLCDパネルがオレンジ色に点灯しエラーメッセージが表示されます。担当者がこの表示を確認すると、該当マシンに残されているエラー情報を解析し、メモリーモジュールが「初期不良メモリ」の可能性が高いと判断されると早期部品交換を行います。もし早期部品交換中に、メモリー不良以外の原因が見つかった場合は、そちらも部品交換します。このようにして製品の初期不良を低減させてから弊社工場を出荷することで、本運用での初期不良の発生を防ぐようにしています。(この対応は機種やサポート内容に応じて変わることがあります。)
安定動作していた計算機が突然メモリーエラーを起こすことがあります。メモリーエラーがシングルビットエラーの場合は、ECCメモリーの働きによりエラーは自動修復されるため運用に影響はありません。そしてメモリーエラーが発生したという情報はシステム管理ツールに引き渡され、エラー情報として記録されます。また、計算機の前面に付いているLCDパネルがオレンジ色に点灯しエラーメッセージが表示されます。設定によっては警告の電子メールが発信されます。お客様がこの警告を認識されると、その旨を弊社に伝えていただき、併せてエラーログなどをメールで送っていただきます。弊社では受け取ったエラー情報をすぐ解析にまわし「経年劣化」かあるいは「他の原因による不良」かなどの状況を把握し、素早くオンサイト修理の手配を行います。オンサイト修理では早期部品交換を行い、必要に応じて予防部品交換も加え迅速かつ確実にシステムの信頼性を回復をさせます。(この対応内容は機種やサポート契約に応じて変化します。)
メモリーのエラーには「ソフトエラー」と呼ばれるものがあります。ここれは宇宙線が原因となり非破壊的にメモリー値が反転するシングルビットエラーです。ただ安心していただきたいのは、「ソフトエラー」は発生頻度が低いとされているうえ、最近のメモリーでは宇宙線を原因とする「ソフトエラー」に対する対策が進み、発生頻度はさらに低下しているそうです。そのためか、ゲーム用や家庭用、事務用のパソコンなどではECCメモリーを省いた機種でも十分とされています。しかし、HPC計算では大容量メモリーを高負荷で連続動作させることが多くメモリーエラーが発生しやすい条件が揃っており油断できません。もし万一、Non-ECCメモリーを搭載した計算機で「ソフトエラー」が発生すると計算機は即座にブルーアウトするため、長時間ジョブが多いHPC計算では大きなダメージを引き起こす可能性があります。さらに、Non-ECCメモリーを搭載した計算機は瞬時にダウンしますから、詳細なエラーログを残せません。そのため、エラーログを解析してエラー原因やエラー箇所の調査を行うことができないので、適切な対策を行うことは困難です。このような理由からHPC計算機は通常はNon-ECCメモリを採用することはありません。
ECCメモリーを採用した計算機なら、「ソフトエラー」を原因とするシングルビットエラーが発生しても、ECCメモリーの働きによりエラーは自動修復されるため動作には影響がありません。しかし発生したメモリーエラーはエラー情報として記録に残され、管理ツールを用いて過去の発生状況を確認することができ、他の原因によるメモリー不良との切り分けが容易です。
これまでご説明したように、代表的な3種類のメモリーエラーについては、ECCメモリの採用、メモリ障害予兆検出、オンサイト早期部品交換、オンサイト予防部品交換を組み合わせることで十分な対策が実現されます。
ECCメモリについて
ECCメモリはECC (Error Checking and Correcting)の略で、日本語では(誤り訂正符号)と訳されています。ECCメモリの仕組みは64bitのデータに対して8bitの冗長化データを持ち、1bitのメモーエラーに対しては誤り検出と訂正が可能です。2bitのメモリーエラーに対してはエラー検出は可能ですが訂正はできません。ECCメモリを利用するためには、ECC対応の計算機とECCメモリが必要です。
障害予兆検出と冗長化
計算機や計算機を構成する部品上で発生する軽微なシングルビットエラーに対しては、ECCメモリによる冗長化を用いたエラー対策を行うことが一般的です。ECCメモリを用いることでエラーは自動的に修復され動作に影響は現れません。そのため利用者はエラーの発生に気づくことは少ないです。しかしもし万一、水面下で重大な障害が進行していて、シングルビットエラーはその予兆だとしたら、これは別の問題です。そこでサーバ系の計算機ではハードウェアで発生するエラー情報の収集や、記録、表示、解析や警告などを行う機能が搭載されています。もしシステム管理ツールがエラー情報を検出するとLCDパネルを明るく点滅させたり、統合管理ツール上にメッセージを表示し、設定によっては電子メールによる警告通知を送信するなどの手段を通じて利用者に注意を促します。特にメモリーやディスクではシングルビットエラーが連続して発生と、それはクリティカルな状態あると判断され、障害予兆を検出しているとのメッセージが発信されます。これは冗長化しているからこそ実現できる機能です。
早期部品交換
計算機を構成する部品がシングルビットエラーを発生させ、その頻度が閾値を超えた場合は、クリティカルなエラーに発展する可能性が高いと判断し、クリティカルなエラーが発生する前に「早期部品交換」を行い、実際の障害の発生を未然に防ぎます。交換部品がホットスワップ対応の場合には計算機を止めずに交換します。通常部品で計算機を停止させて交換する場合は、停止させる日程を打ち合わせにより決めさせていただき計画的に修理を行うことにより、機会損失を最小限に抑えることができます。
予防部品交換
エラー検出の報告を受けて原因の調査を行っても障害の特定が難しく、オンサイトでの原因の切り分けも難しい場合には障害に関連する部品を含めてブロックレベルで部品交換を行う「予防部品交換」が適しています。予防部品交換を行うことで原因調査に費やす時間を短縮し迅速な復旧を実現できます。さらに予防部品交換では、障害の原因が潜んでいる可能性のある箇所を根こそぎ交換するため、障害の原因を見落としていても確実な修理を実現することができ、修理の確実性を飛躍的に向上させることができます。
計算機ベンダー純正メモリ
部品のバリデーションやサポートの一貫性を重視すると、メモリーに関しても純正品の使用が基本となります。全ての計算機ベンダーが適度な競争にさらされている現在では極端な価格のメモリは市場により存在が許されなくなっています。逆にHPC利用においての信頼性やサポートの充実などを考慮するとベンダー純正メモリは総合的には割安感があります。
メモリーエラーは、エラーの発生頻度が低く、発生条件もデリケートため、センドバック保守などにより計算機の設置場所を変えてしまうとエラーの再現に時間が掛かったり再現しない場合もあり、修理の確実性が低下します。そのためメモリーエラー修理の基本は、お客様のサイトを専任の技術者が訪問し、エラーログに基づき早期部品交換や予防部品交換を行うことです。このようなサービスを実現するため全国200箇所を越えるサービス拠点からオンサイト修理技術者をお客様の元に迅速に派遣する体制を整えています。また、修理用部品の入庫、保管、配送システムについても世界的な流通網が日本国内にも張り巡らされており、高品質な修理部品を的確にお客様の元に届けることができます。さらに、お客様が導入された計算機の詳細な情報がデータベース化され参照できるだけでなく、修理に役立つ参考技術情報も修理担当者に届けられるシステムが用意されています。また弊社の側でもお客様のシステム情報カルテを参照しながら作業を見守り、修理作業者と連携してシステム復旧をバックアップします。
システム停止が大きな機会損失を引き起こす可能性が高い管理サーバやファイルサーバなどの修理では、「当日4時間のオンサイトサービス」と「プラス対応サービス」という高度な保守サービスを追加提供することで迅速な復旧を実現し機会損失の縮小に貢献しています。
当日4時間のオンサイト保守サービス (平日9時よりサービス開始)
オンサイト保守実施を決めてから約4時間でフィールド技術者がお客様のサイトに駆けつけるサービスです。HPCに精通した弊社の技術者が、電話やメールによるお客様のお問い合わせを受けると、障害の状況を詳しく伺い、エラーログも拝見し、正確な状況の把握を行います。障害の確認が終わると、デルサポートと協力し可能な限り当日の4時間以内にデルの認定を受けたフィールド技術者を派遣し、迅速なシステム復旧に取り組みます。
プラス対応サービス (迅速な復旧に効果が高い)
大まかな状況把握だけでフィールド技術者を特急で派遣します。さらに、修理部材を物量戦スタイルで潤沢に初期投入することで、初動時から大胆な予防部品交換が可能で迅速かつ確実な障害解決を実現します。
当日4時間プラス対応オンサイト保守サービス対象地域の確認
これらのサービスは対象地域が限定されています。お客様の所在地が対象地域に含まれているかどうかは、次の対象地域検索ツールにてご確認をお願いします。
http://support2.jp.dell.com/jp/jp/server_onsite/search.asp
記載したサポートは機種によって多少の内容の違いはありますが標準で3年間の無償提供を行っています。さらにオプションで4年間や5年間へのサポート期間の延長も承ります。またサポート期間中であればサポート期間の延長もお得な価格で行えます。もちろんサポート期間の満了後も有償になりますがサポートサービスを行います。サポートサービスの再開も可能です。
この文章に記載されている内容は基本的な考え方や可能性を示したものであり、実際の障害対応の現場において全ての障害が解決されることを保証するものでありません。