サイト内の現在位置を表示しています。

リモート保守の現状と将来への 取り組み

Vol.63 No.3 2010年9月 パブリックセーフティを支える要素技術・ソリューション特集

システムのオープン化と複雑化に伴い、故障時における故障発生装置、問題箇所、ハードウェア/ソフトウェアの特定が困難になってきています。また、安定稼働のためにはシステム全体の運用/管理が必要不可欠であり、構成情報、性能情報、リソース情報などの管理が必須となっています。これらのニーズから、NEC製品に実装されるリモート機能と、TRS(Total Remote Support)インフラを活用したリモート保守の現状と将来への取り組みについて紹介します。

1. はじめに

NECとNECフィールディングでは、お客様のITシステムの安定稼働のため、Express5800からスーパーコンピュータに至るハードウェアに対してリモート保守を展開してきました。

しかし、システムオープン化と複雑化に伴い、システム全体の安定稼働を実現するためには、OS稼働状況、アプリケーション稼働状況、構成情報、性能情報、消耗品/寿命情報、リソース情報などを複合的に監視する必要があります。本稿では、お客様のITシステムの安定稼働と運用コスト低減のために欠かせない、リモート保守の現状と将来への取り組みについて紹介します。

2. リモート保守の現状

昨今、お客様のITシステムにトラブルが発生し、サービス提供が停止した場合、業務への影響は図りしれず、市場からの信頼失墜は免れない状況になります。また、ITシステムを構成するコンピュータ機器の正常性を常時監視し続けることは、大変な労力と費用が必要になります。
このため、「リモート保守」を導入することにより、コンピュータ機器の正常性を遠隔でお客様に代わって24時間365日監視し、また、トラブルの兆候を発見した段階で予防保守を行うことにより、致命的なシステムトラブルを未然に防止することができます。

(1) リモート保守の歴史と機能

NEC製品におけるリモート保守は、1974年に提供を開始したメインフレーム(ACOS)の遠隔保守機能に始まり、継続して対象機種をスーパーコンピュータからサーバ、POS、プリンタまで拡大し、併せて各コンピュータ機器ごとに機能の拡充を図ってきました(図1)。

図1 NEC製品におけるリモート保守の歴史

(2) NEC製品に実装されているリモート保守機能

これまでに、NECとNECフィールディングが開発したリモート保守を実現するシステムはALIVE(An Online Versatile Maintenance System)と呼ばれており、これは、2つの機能から構成されています。

  • 1)
    コンピュータ機器自身でトラブルを検知し、センターシステムへ通報する自動通報機能
  • 2)
    センターシステムからコンピュータ機器を診断する、遠隔診断機能

メインフレーム(ACOS4)や、大型ストレージ(iStorage)、サーバ系の一部において、図2に示すように、SVP(サービスプロセッサ)と呼ばれる機能と、公衆回線を介して自動通報と遠隔診断を行います。自動通報のデータは暗号化されており、センターシステムと専用のプロトコルで通信します。また、遠隔診断はセキュリティを考慮して、コールバック方式を採用しており、センターシステムからSVPに蓄積されたログを診断します。

図2 ALIVEの仕組み

NX7000/7700、Express5800などのサーバ、小型ストレージ(iStorage)においては、インターネットなどのIP網を介して、メールやHTTP(Hyper Text Transfer Protocol)のプロトコルでセンターシステムへ通報し、一部の製品ではエラーログを添付して通報します。

(3) リモート保守のフォーメーション

現状のリモート保守では、お客様のITシステムにおいて発生するコンピュータ機器の故障が、自動的にNECフィールディングへ通報されます。NECフィールディングでは、常時専門の技術者が通報監視しており、通報発生時に故障の原因及び処置方法を迅速に特定するため、事例データベースを用いて通報を分析し、お客様担当保守拠点に作業指示を行います。なお、自動通報だけで判断が不可能な場合、お客様コンピュータ機器に対して遠隔診断を行い、原因特定に必要な情報取得と状態確認を行います。サービスエンジニアは、指定された処理方法に従い修理にとりかかり、お客様システムの迅速な復旧にあたります。図3にリモート保守のフォーメーションを示します。

図3 リモート保守のフォーメーション

3. リモート保守を支えるリモートサポートインフラ

(1) リモート保守における課題

近年、お客様の業務のIT化が進みシステムが複雑になっているため、リモート保守において下記の課題を解決する必要があります。

1) ITシステム全体を管理するサービスの必要性

お客様のITシステム上で稼働するお客様業務サービスの可用性を向上させるためには、業務サービスを構成する、ハードウェア、ソフトウェア、ネットワークなどITシステム全体を管理する必要があります。

2) 構成情報管理の必要性

運用中の構成変更により、トラブル発生時に的確な対応ができず、復旧までに時間を要すケースが増加しており、復旧時間短縮のため構成情報を管理する必要があります。

3) 性能情報管理の必要性

ITシステム上で稼働するお客様の業務サービスを適正なコストで実現するために、キャパシティとパフォーマンスの管理を行い、リソースの不足や過剰をなくし最適な運用を行う必要があります。

4) 消耗品と寿命品情報管理の必要性

消耗品と寿命品の管理が行き届かず、それに起因するトラブルが増加しており、これらの管理を行い計画的な保守を行うことが必要不可欠です。

(2) リモートサポートインフラの構築

上記課題を解決するため、TRS(Total Remote Support)インフラ構想を立ち上げ、各種整備と開発を行ってきました。TRSインフラとは、お客様システムの稼働状況などの監視/情報採取が可能なシステム「Remote GateWay」、お客様のIT環境とNECフィールディングをつなぐ通信インフラ、及び収集した各種データを管理/分析し運用監視/管理部門への配送を行うセンターシステム「Center GateWay」で構成されるリモートサポートインフラの総称です。

1) Remote GateWay

Remote GateWayは、低価格化/汎用化が進みRAS(Reliability, Availability, Serviceability)機能の実装が困難なオープン系装置に対し、外部から監視/情報採取を行います。図4にRemote GateWayの機能と図5に採取情報のイメージを示します。Remote GateWayには主に5つの機能があります。イベント受信機能は、監視対象装置からのイベント情報を受信し、装置ごとに記載された知識ベース(以下KDB)に基づき、Center GateWayへ自動通報を行う機能です。TRAP受信機能は、監視対象装置から出力されるTRAPパケットを監視し、KDBの内容に基づき自動通報を行います。SNMPチェック機能は、KDBの内容に基づき、監視対象装置のMIB情報を基に一定間隔で性能やリソース情報を取得し、しきい値が越えていた場合に自動通報します。分析機能は、収集したデータを基に、KDBの内容に基づき分析した結果を通報する機能です。死活チェック機能は、監視対象装置へKDBに記載されたパラメータに基づき、死活監視を行います。

図4 Remote GateWayの機能
図5 Remote GateWayの採取情報
2) Center GateWay

Center GateWayは複雑化するシステムをお客様ごとに管理し、運用領域までのリモートサポートサービスを提供するため、ITILのフレームワークで求められる各種管理機能を持つことを特徴としています。TRSインフラでは通信プロトコルにHTTP、HTTPS(HTTP Security)、SMTP(Simple Mail Transfer Protocol)を採用しており、セキュアで汎用性/拡張性の高いリモートサポートインフラを構築しました。本インフラを用いて各種リモートサービスを提供することで、お客様のシステムを構成するサーバ、ストレージ、ネットワーク、電源や空調機器などのファシリティ機器、ファイアウォールをはじめとするセキュリティ製品、ミドルウェア、アプリケーションを統合的にリモートで一括監視/管理することが可能となります。

(3) リモートサポートインフラの特徴

1) 監視対象、監視ルールの自動更新

Remote GateWayは、一定時間ごとに、Center GateWayに対して正常稼働を通知し、併せて、Remote GateWay自身に対して、実行すべきコマンドがあるか確認します。コマンドにより、監視対象データの更新(監視対象装置の変更)や、監視対象装置の監視知識DBの取得、更新などを自動で行うことができます。よって、お客様のITシステムの構成変更や監視項目の更新に迅速に対応できます。

2) 構成情報の管理

Center GateWayでは、Remote GateWayや各装置から受信した定期通報内に含まれるログから構成情報を抽出し、顧客情報と関連付けて管理することを可能としました。これにより、故障時は拠点担当や支援部門がお客様のシステムの最新構成情報を把握できるため、迅速で適切な故障対応が可能となりました。

3) 性能情報の管理

Center GateWayでは、各装置が性能情報として通報するCPUやメモリ、HDDの使用率と、リモートGateWayが性能情報として通報する任意のTCPポートのレスポンスタイムを時系列データでお客様ごとに管理します。これらのデータを基にグラフを生成し、日々のシステム負荷や性能飽和予測の可視化を実現します。その結果、お客様のシステムの適切なプロビジョニング管理が可能となりました。

4) 消耗品/寿命情報の管理

無停電電源装置(UPS)やプリンタなど、装置がMIB(Management Information Base)として保持している消耗品及び寿命品情報を、Remote GateWayがSNMP(Simple Network Management Protocol)を用いて採取し、Center GateWayに通知します。Center GateWayは顧客情報から機種を特定し、担当者に消耗品/寿命品の交換通知を送付します。この一連の流れにより、消耗品/寿命情報のリモート管理ができます。

4. リモートサポートインフラを活用したサービス

NECフィールディングでは、TRSインフラを活用したサービスとして、お客様のシステムの監視/管理をリモートで行う「ITマネジメントサービス」、「運用監視サービス」を展開しています。本サービスはITILの考えに基づいたお客様のシステムの最適運用をリモートから支援するサービスです。TRSインフラを利用することにより、お客様のITシステムの統合的な監視が可能となり、従来の装置単体の故障検出だけではなく、故障による関連システムへの影響度やお客様サービスへの影響度、潜在的なシステムボトルネックなどの把握が可能で、お客様のサービス継続性を最大限に高めることができます。

5. おわりに

これまでは、コンピュータ機器単体のリモート保守が中心でしたが、TRSインフラを活用することにより、ITシステム全体のソフトウェアや運用情報、構成情報まで管理できるようになりました。

今後発展が予想されるクラウド環境や仮想化システムでは、業務アプリケーションの正常動作のために、リソースの最適割り当てがより重要になります。

これからは、従来からのコンピュータ機器のハードウェアリモート保守と、TRSインフラの構成情報管理と性能情報管理を活用し、クラウド環境や仮想化システムに対しても、NECグループの強みを生かしたリモート保守機能を強化します。これにより、お客様のITシステムの安定稼働及びリソース最適化による運用コスト低減に努めてまいります。


  • *
    Windowsは米国Microsoft Corporationの米国及びその他の国における登録商標です。
  • *
    Solarisは米国Sun Microsystems, Inc.の米国及びその他の国における登録商標です。

参考文献

  • 1)
    青柳雅之、北尾一彦、木村祐、吉田俊雄、「ITIL教科書」、アイテック社(ISBN 9784872685664)、2006/8
  • 2)
    尾崎雅彦、「ITIL導入のためのBS15000/ISO20000入門」、ソフトバンククリエイティブ社、2006/1
  • 3)
    Craig Hunt、村井純、「TCP/IPネットワーク管理 第2版」、オライリージャパン、1998

執筆者プロフィール

廣上 雅久
NECフィールディング
サービス技術本部
基盤技術部
マネージャー
深海 浩
NECフィールディング
サービス技術本部
基盤技術部
マネージャー
高谷 健太郎
NECフィールディング
サービス技術本部
基盤技術部
主任