Japan
サイト内の現在位置
ハイパーコンバージド・インフラストラクチャ(HCI)
備えあれば憂いなし!
NECのHCIで安心なインフラ運用


ITシステムの運用ではあらゆる問題が発生します。
システム障害や突発的なトラブルの発生に備えて、事前対策および対処が有効です。
若手SEナギサちゃんはHCS Consoleのデモを見てHCS for vSANを導入し、自社運用にも慣れてきました。
ただ思わぬシステム障害が発生してしまい苦戦している様子です。その一部始終を見てみましょう。
HCIはかせとナギサちゃんの今までのお話はこちら!
登場人物
HCIはかせ
若手SEの
ナギサちゃん
ナギサちゃんの上司
第2章
- HCS for vSANの運用サポート機能でシステム安定稼働を実現!
- NEC Hyper Converged System サポート
- 診断カルテ
第1章 突発的なシステム障害が発生!事前対処の重要性とは?
(前回のおさらい)
(上司との1on1にて)
HCS for vSANの導入後、特にシステム障害もなく運用できています。
HCS Consoleもリモートデモで見た通り、操作性も効率性も良いですし、運用もスムーズになりました。HCS for vSANを導入してよかったです。

ナギサさんはHCS for vSANの運用に慣れてきたみたいだね。
ただ、これからシステムの稼働率が上がってくるし、突発的なシステム障害への対処も必要だから、トラブルシューティングや今後を見据えたシステム/リソースの拡張計画も必要だよ。
今からちゃんと考えておくようにね。

はい、分かりました。
(しばらく問題なさそうだし、今は他の業務で忙しいから後回しにしよう)

・・・
営業部門⇒ナギサちゃんにメール
(年度末のある日)
あ、営業部門からメールが来てる。確認してみよう。
「〇〇システムへのアクセスができない。年度末なので早急に対処して欲しい」って!?
このシステムが稼働しているHCS for vSANの状況を見てみよう。

ナギサちゃんにて原因調査する
うーん、原因がよく分からないな。
とりあえず、ハードウェアのサポート窓口に相談をしてみよう。

ナギサちゃん⇒サポート窓口へ問い合わせ
ハードウェア観点で調査の結果、問題なさそうか。
他のサポートからの回答も見ているけど、どこに障害があるのか分からない。
どうしよう・・・ひとまず上司に相談しないと。

ナギサちゃん⇒上司に相談
なるほど、状況は理解したよ。
ハードウェア以外に原因があるとすれば、CPU・メモリなどのリソース使用状況を確認する必要がありそうだね。
HCS Consoleにログインして、詳細確認してみて。

分かりました。
詳細確認してみたところ、リソースがひっ迫しておりレスポンス遅延が起きているようです。これが原因かもしれません。
サポート窓口に対処方法を問い合わせてみます。

・・・
先ほどシステム障害の対処が完了しました。
また、先ほど営業部門からも〇〇システムにアクセスできるようになったと連絡がありました。
本当に助かりました・・・ありがとうございます。

解決してよかった。
今回はインシデントには至らなかったものの、一歩間違えると
・お客様から当社に対する信頼失墜
・機会損失の発生
のような事態に繋がるから、今後の再発防止策を検討してみてね。

はい、早急に検討します。

第2章 HCS for vSANの運用サポート機能でシステム安定稼働を実現!
はあ、今回の件は反省しないと・・・
でも、システム障害が発生したのも初めてだったし、今後同じことが発生した場合はどう対処すれば良いんだろう・・・
運用の知見もないから手順書も作れないし、困ったな・・・

ごきげんようー。
あれ?今回もお困りみたいだね?

はかせ・・・そうなの。今回のことで自信を無くしちゃったよ。

初めてのことだったとはいえ、今後に向けた対策は必要だね。
ちなみに、今回はどうすればよかったと思う?

あれから考えたけど、この3つが必要だったと思う。


バッチリだね。これらがちゃんと対策できていれば、障害発生しても問題なかったよね。

でも、障害箇所の切り分けは私一人ではできなかったし、運用マニュアルは色々調べながら整備しないと・・・
しかもリソース拡張なんて、今後どう増えるか予測もつかないから、対処できないよ。

HCS for vSANにはバックアップやHCS Console以外にもインフラ運用をサポートしてくれるとても便利な機能があるのは知っているかな?
このあと時間あれば、説明するよ。

はかせ、ありがとうー(泣)
ぜひ色々教えてください。

はいよー。
あ、その前に確認だけど、HCS for vSAN導入したときに「NEC Hyper Converged System サポート」「診断カルテ」も追加していたよね?

うん、追加しているよ。
でも、今までHCS Consoleだけで管理できていたから、それ以外の機能はほとんど使ったことがないの。

あらら、そうなのか。
話を戻すけど、さっき対策として教えてくれた3点なんだけど
[1]障害箇所切り分けの効率化
[2]運用マニュアルの整備
[3]リソース拡張計画の策定

これらを解決するためには
[1]と[2]は「NEC Hyper Converged System サポート」
[3]は「診断カルテ」を使うといいよ。

え、そうなの?
・・・今さらなんだけど、「NEC Hyper Converged System サポート」と「診断カルテ」ってどんな機能なんだっけ?

そうしたら、「NEC Hyper Converged System サポート」からおさらいしようか。

NEC Hyper Converged System サポート
「NEC Hyper Converged System サポート」には2つの機能があって、
・システム障害発生時の切り分け作業が不要
・HCI運用を支援する手順書を提供
これによって、安心なインフラ運用をサポートしてくれるんだ。

具体的にどんなメリットがあるの?

まず「システム障害発生時の切り分け作業が不要」の説明をするね。
ちなみに、今回のシステム障害の原因は何だったの?

HCS for vSANで稼働しているシステムにアクセスが集中して、リソースがひっ迫してしまったの。
サポート窓口からの結果を確認したけど、障害箇所の切り分けができないまま時間が過ぎてしまって。

なるほどね。
NEC Hyper Converged System サポートでは、NECが障害箇所切り分けから確認まで行った結果を回答してくれるから、HCS専用窓口に問い合わせするだけでよいんだよ。
整理するとこんな感じだね。


それって、私の方で障害の切り分けが不要になるってこと?
すごく便利だし、とても助かる!

そうだよ。実際に使っているお客様からも、安心なインフラ運用をできていると高い評価を受けているみたいだよ。

それから、もう1つの特長「HCI運用を支援する手順書を提供」 について説明するね。
ちなみに、「NEC Hyper Converged System運用ガイド」は知っているよね?


うん、これを見ながら運用しているよ。
でもシステム障害発生時の対応、切り分け手順まではこれには載っていなかったかな。

そうだね。
NEC Hyper Converged System サポートを契約すればここにある技術ドキュメントを提供してもらえるよ。
運用ガイドとこれらの技術ドキュメントを併用すれば、障害発生時も含めてシステム運用が安心してできるようになるね。

NEC Hyper Converged System サポートの契約により提供される技術ドキュメント
ドキュメント名 | 記載内容 |
---|---|
運用ガイド(障害対策編) | システム障害発生時の対応、切り分け手順 |
運用ガイド(バックアップ/リストア編) | システム構成のバックアップ/リストア手順 |
運用ガイド(増設編) | ディスク、メモリ、CPU、ノードの増設手順 |
運用ガイド(更新編) | VMware関連のソフトウェアのアップデート手順 |
まさに私が欲しかったやつ!!
これがあれば今回のように困らなそうだよ。

そうそう。ちなみに今回リソース不足が原因だったけど、「運用ガイド(増設編)」の技術ドキュメントも提供してもらえるから、今後リソース拡張する際にも参照できるから便利だよ。

うん・・・それなんだけど・・・

診断カルテ
今回のように突発的なリソース不足が発生しないように準備しておきたいんだけど、「いつ」「どのくらい」リソース拡張すれば良いかが分からないの。
それにリソース拡張には社内決裁も必要になるから、上司に何て説明すれば良いのか分からないよ。

そうだったね、そうしたら「診断カルテ」を説明しようか。
この機能は知ってるかな?

うーん、覚えてない。でも、NECの営業さんが、今回新しく追加された機能ですって言っていたような。

そうそう、HCSの新しい機能なんだよ。
「診断カルテ」はその名の通り、サーバ(HCS)の健康診断をして、システム稼働状況や構成情報を定期的にレポートしてくれるんだ。

思い出した!
確か前もらった資料にあったような・・・この3つだったよね?

診断カルテの提供機能
正解。この中央にあるようなグラフだけど、過去からのリソース推移状況を確認できるから、いつどのリソースがひっ迫しそうで、どのくらい拡張すれば良いかのキャパシティプランニングにも役立てられるよね。

本当だね。今、直近2カ月間の診断カルテを見てみたけど、メモリがしきい値に近くなっていたよ。
これが分かっていたら、事前に対処できていたのに!

そうだね。あと、ナギサさんは毎月システムの稼働状況を上司に報告しているけど、このレポートを使うことで、報告書作成の効率化にも繋がるよね。

HCS for vSANは日常の運用管理に加えて障害発生時にも困らない機能が備わっているよ。ナギサさんに合った運用方法を考えてみてね。

なるほど、こんな便利な機能を使っていなかったなんて・・・
今回教えてくれた内容を元に再発防止策を整理して、上司に報告するね。
はかせありがとう!!

頑張ってねー。困ったらいつでも相談にのるよ。

・・・
(上司との1on1にて)
(前略)~以上により、「NEC Hyper Converged System サポート」と「診断カルテ」を活用することで、前回ご指摘いただいた再発防止策を徹底していきます。

ありがとう。
報告してくれた対策に不足はないと思うから、これで進めてみよう。

ありがとうございます。今後起こさないように徹底していきます。

これから新しい技術もどんどん出てくるから、それに合わせて情報システム部門も変わっていかないといけないね。
頼りにしているから、これからもよろしくね。

はい、こちらこそよろしくお願いします。
(これからも頑張らないと!)

「NEC Hyper Converged System サポート」「診断カルテ」
を詳しく知りたい方はこちら!
※お客様情報入力後、ダウンロードいただけます。
お問い合わせ