Japan
サイト内の現在位置
Tech Report
金融システムの障害復旧を次のレベルに引き上げるObservability製品
~オペレーショナル・レジリエンス向上を実現する3つの機能~


本記事の執筆者
所属:金融システム統括部
氏名:佐藤 圭介
役職:主任
大手金融機関向けSI案件の開発・運用を推進。
2011年から金融機関向けのインフラ構築案件に従事。
2022年からAPM導入プロジェクトを推進。

金融機関に求められるオペレーショナル・レジリエンスとは
金融機関におけるシステム障害は、顧客の取引停止や信頼性の低下など、市場や顧客に対して広範囲かつ甚大な影響を及ぼす可能性があります。そのような影響の大きさから、障害が発生した際、いかに迅速かつ確実に復旧できるかを示す「オペレーショナル・レジリエンス」の向上が金融機関において喫緊の経営課題となっています。(1)(2)
システム障害発生時には、業務を迅速に復旧することが重要となります。障害復旧対応では、最初に障害の発生や予兆を検知。既知の事象である場合は、事前に設定したプログラムや、オペレーションで自動復旧を試みます。一方、新規の事象である場合は、原因を細かく分析して切り分け、手動で復旧していく形が一般的かと思います。
そのため、障害復旧対応では、いかに迅速かつ確実に障害の発生や予兆を検知するか、自動復旧の範囲を広げられるか、自動復旧できない場合は、障害を分析し切り分けるスピードを上げられるかが重要なポイントになります。
NECは、オペレーショナル・レジリエンスの向上を支援すべく、金融機関に Observability製品の導入を推進しています。Observability製品はアプリケーションのパフォーマンスを含めたシステムの内部状態を把握・可視化する高度なツールであり、単なる障害の検知にとどまらない、多角的な価値を提供します。

オペレーショナル・レジリエンス向上を支援するObservability製品の機能
Observability製品が実現できることは多岐に渡りますが、障害復旧のポイントとなる3つの機能①「障害検知/予兆検知」、②「自動復旧」、③「障害切り分け」を持ち合わせていることが、オペレーショナル・レジリエンスの向上を実現する観点で重要な特徴です。NEC取り扱い製品の1つであるIBM Instana Observability[1][2]を例として、各機能についてご紹介します。

機能①「障害検知/予兆検知」
迅速な復旧の第一歩は、障害を早期に検知することです。Observability製品を利用しない場合、Webサイトの死活監視や、アプリケーションのプロセス死活監視、インフラのリソース状況の監視など、システムが問題なく動作しているかの監視に留まります。
一方、Observability製品を導入することで、Google社が提唱したゴールデンシグナル(3)を始めとして、Webのサイト応答遅延やWebページのロード時間、アプリケーションのトランザクション単位での処理時間など、幅広いメトリックを取得することが可能です。そのため、障害時に利用者へ与える影響範囲が明確になり、顧客業務にあわせて優先順位をつけた復旧作業ができるようになります。

また、過去の応答時間を学習し、通常と異なる兆候をいち早く検知することで、障害の予兆を捕捉することが可能です。これにより、問題が顕在化する前にプロアクティブな対応が可能になり、障害の発生自体を未然に防ぐことが期待できます。
機能②「自動復旧」
システム障害発生時の業務影響を最小限に抑えるには、復旧を自動化することが重要になります。Observability製品を利用しない場合、従来の監視対象(インフラリソースやプロセス起動状態)の障害に対する障害対応のみ自動復旧可能です。
一方、Observability製品を導入することで、幅広いメトリックの障害に対して、自動化処理を実行させることが可能です。例えば、特定のトランザクションが増加したことを想定して、関連リソースの拡張やリカバリ処理の実行といった処理を設定することで、顧客の業務影響を最小限に抑制でき、業務に影響を与える前に未然に対処することができるようになります。
機能③「障害切り分け」
発生したシステム障害が既知の障害ではない場合、早期に事象を切り分ける必要があります。
Observability製品を利用しない場合、検知したメッセージから障害箇所を予測し、必要なログを採取してから分析する必要がありました。
一方、Observability製品を導入することで、切り分けに必要な情報が既にリアルタイムで収集された状態となります。また、製品によっては、AIによる障害原因のリアルタイム分析が可能な為、障害切り分けの時間を最小限にして復旧作業に取り掛かることが可能となり、早期に顧客の業務が再開できるようになります。

まとめ
本記事では、市場や顧客に対し、甚大な影響を及ぼす可能性のある金融機関におけるシステム障害に対応する方法として、オペレーショナル・レジリエンスの向上を目的としたObservability製品の3つの機能「障害検知/予兆検知」、「自動復旧」、「障害切り分け」をご紹介しました。
Observability製品は、その他にも開発の効率化、SRE(Site Reliability Engineering)の推進など、実現できることが多岐に渡ります。また、Observabilityの領域は変化のスピードが速く、Observability製品で可視化できる範囲は日々広がっています。
金融機関において、安全・安心かつ信頼性のあるサービスの提供は最優先事項です。当社は、各金融機関のニーズに応じたObservability 製品の提案・推進を通じて、レジリエントな金融システムの実現に貢献してまいります。
参考文献
(1) バーゼル銀行監督委員会による「オペレーショナル・レジリエンスのための諸原則」及び「健全なオペレーショナル・リスク管理のための諸原則の改訂」の公表について
https://www.fsa.go.jp/inter/bis/20210402/20210402.html
(2) 「オペレーショナル・レジリエンス確保に向けた基本的な考え方」(案)に対するパブリック・コメントの結果等の公表について
https://www.fsa.go.jp/news/r4/ginkou/20230427.html
(3) The right metrics to monitor cloud data pipelines | Google Cloud Blog
https://cloud.google.com/blog/products/management-tools/the-right-metrics-to-monitor-cloud-data-pipelines?hl=en
関連リンク
Contact
お問い合わせ