ページの先頭です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. ソフトウェア
  3. WebOTX
  4. アプリケーションサーバ
  5. 特長/機能
  6. 機能一覧
  7. オンライントランザクション管理
  8. 動的アプリケーション変更・無停止更新
  9. プロセスの障害監視
ここから本文です。

WebOTX Application Server - オンライントランザクション管理 ~ プロセスの障害監視 ~

「オンライントランザクション管理」へ戻る

AS Standard Editionが備える機能AS Enterprise Editionが備える機能
WebOTXは、アプリケーションサーバ上で動作しているプロセスの稼動状況を監視し、障害が発生したときには速やかにリカバリを行います。この分野はWebOTXの最大の強みです。これについては、お客様のご要望をもとに進化させています。

本機能によるメリット
  • プロセス異常をリアルタイムに検出・復旧が可能なため、システム停止時間を極小化可能。
  • 障害発生時の原因特定を早急に実施可能。
  • システムの安定稼働を実現可能。
  • 障害要因を早急に取り除くことでサーバリソースを効率よく利用可能。

障害対応機能

24時間365日のサービス提供を可能にするため、WebOTX Application Serverでは基盤部分のより一層の可用性(稼働率)と信頼性の向上をはかっています。

障害検出機能

WebOTX V5以前では、アプリケーションの異常終了を検出すると即時再起動させることで障害によるサービス停止時間を0に近づけていましたが、異常終了せずにデッドロックやストールにより制御不能となった場合にはそれを検出出来ない場合が稀にありました。また、この場合の復旧にはオペレータの介入が必要でした。

これに対しWebOTX V6では、アプリケーションの状態監視方式について見直しを行い、デッドロックやストールなどの制御不能状態に陥ったことを検出して、強制終了と再起動を行う機能を新たに設けました。

これにより、不慮の障害に対してもほぼ完全な自動リカバリが可能になり、従来にも増してサービス停止時間を削減することができます。

障害情報採取機能

WebOTXによるアプリケーションの異常検出と自動再起動はサービス停止時間の削減に寄与しますが、異常の原因がわからずに再起動で運用を継続することは単なる回避措置でしかありません。原因が判明するまでの間は監視体制の強化や検証作業の繰り返しなどでシステム部門に大きな負担がかかります。またこの期間が続くことはシステムとしての評価を下げてしまいます。

WebOTX V6より、障害時の情報採取機能を強化し、わかりやすい情報をタイムリーに採取します。具体的には、しきい値以上に時間がかかっている処理が存在したり、デッドロックが発生した場合のJavaスタックフレームの採取、レスポンス遅延の解析に有効なオペレーション単位の統計情報や空きスレッド数の履歴管理、障害解析に必要な情報の消失を防ぐためのトレース機構強化などです。

これにより、情報不足による原因不明障害(再現待ち)を減らすことができ、より安定した状態でシステムを運用することができます。

また、解析を行いやすくするために、これらの情報を統合運用管理コンソールにてグラフィカルに表示する機能も提供します。

アプリケーション例外監視機能

クライアントからの処理要求に対してサーバアプリケーションが不正な処理を行い例外・ダウンした場合に、該当スレッドを閉塞し、例外が発生したことをアプリケーションに通知します。アプリケーションは、データベースのロールバック前に障害情報の保存などの後処理を行うことができます。

アプリケーション実行時間監視機能

クライアントからのトランザクション要求に対して指定した時間が経過してもサーバアプリケーションが応答を返さない場合に、アプリケーションを異常終了させて該当プロセスを閉塞します。これによりクライアントに応答が返らない事態やサーバの資源を無制限に消費する事態を回避できます。実行時間を監視するための設定値は、システムの稼働状況より自動的に算出することも可能です。

サーバのアプリケーションが応答を返さない原因としては、例えば無限ループの発生が考えられます。無限ループが発生するオペレーションを、他のクライアントが引き続き呼び出した場合、再度無限ループが発生してしまう可能性が高いです。そのため、そのオペレーションを閉塞状態にしてクライアントから実行させないようにする必要が出てきます。アプリケーション作成者は、閉塞している間にプログラムのチェックを実施することになります。オペレーション単位で閉塞状態にすることができるので、正常動作している他のオペレーションは引き続き動作させることは可能です。

また、データベースのデッドロック等、再試行可能な障害の発生も考えられます。その場合に、そのオペレーションを自動的にやり直したり、データベースがオーバーフローした場合には、更新系のサービス(オペレーション)だけを停止する等、障害発生時にきめ細かいリカバリ処理を行うこともできます。


ページの先頭へ戻る