Japan
サイト内の現在位置
【連載 その2】不要なアラートメールを削減する方法 「件数集約」とは?
vol.5前回から3回に分けて不要なアラートを削減する方法をご紹介しています。今回は第二弾として「件数集約」についてご紹介いたします。
「件数集約」で本当に必要なアラートだけを選択しませんか?
システム監視を運用している現場では、アラートメールの件数が多くてお困りだという話がとても多いです。
「決まった時間帯に同じ内容のアラートメールが連続して来る」
「このアラートは3回連続して起きると危険なので察知したい」
「そもそも不要なアラートメールが多すぎる」
このようなお困りごとを解決するためにAMCでは3つの集約機能を用意しています。
連載の2回目は件数集約について紹介いたします。
最初のアラート発生から時間内の同一アラート発生件数に応じて通報します
ITシステムの監視を運用していて、システムリソースの突発的な負荷増減や装置・ケーブルなどの間欠的な障害(断続的に障害が発生する状態)に悩まされることは少なくありません。瞬間的にしきい値を超えるようなエラーがときおり発生するたびに、担当者が対応しなければならないのは大変です。
こうした状況を改善するためにはアラートの発生頻度に応じて通知を限定することが対策の1つです。
AMCの件数集約では最初のアラート発生からの経過時間と同一アラート発生件数に応じて1通のみ通知することができます。
例えば、サーバのCPU使用率超過が5分おきに連続して発生しているような場合、最初のアラート発生から25分以内に受信した同一アラートメールのうち、4件目だけをエスカレーションするというふうに集約できるのです。
これにより瞬間的な高負荷が起きても経過を見守り、20分間高負荷が続いた場合に通報するといった運用が可能になります。
経過時間というのは、最初のアラートが発生後に件数をカウントする時間を分単位で指定して決めることができます。
また同一アラートかどうかはパターン(AMCではフィルタリングをパターンマッチと呼んでいます)の条件を指定することで判定します。パターンでは正規表現を使ったキーワード条件などを指定できますが、パターンマッチについては別の機会に紹介します。
【件数集約のパターン設定例】
このように同一アラートを経過時間と件数で集約して通知する時間集約を使うことで、間欠障害を把握し、通知のラッシュを抑止できるのです。
【件数集約でのメール通知例】
集約機能を使うことで重複する通知を削減することが可能なので、電話により自動通報する場合には集約機能(件数集約、時間集約)を利用することを推奨しています。
おわりに
今回のブログはいかがでしたでしょうか?
AMCの件数集約を使うことで、アラート発生からの経過時間と発生回数に応じたエスカレーションを行うことができます。間欠的な障害発生に対応して重複するアラートメールを削減することができ、対応工数の削減、障害連絡時間の短縮が見込めます。
本機能は電話通知と合わせて活用すると効果的です。
本ブログは皆様から頂いた様々なお問合せを参考にして更新しております。今後も皆様のお役に立つ情報を発信して行きたいと考えておりますのでWebSAM Automatic Message Callブログをよろしくお願いいたします。
[参考情報]
https://jpn.nec.com/websam/automaticmessagecall/download.html
⇒WebSAM Automatic Message Call 紹介資料