本記事は Nutanix Advent Calendar 2018 12月4日分の記事です。
昨日は、@shadowhatさんのNutanixに関する噂の検証記事でしたね。https://infraapp.blogspot.com/2018/12/nutanix.html
記事の通り、正しくない情報をつかまないように、
注意深く情報を入手してください。
さてさて、Nutanixの機能的な解説については
諸先輩方にお任せするとして、
本日の記事ではちょっと珍しい、
実運用現場での運用視点の話題をお届けします。
12/1に投稿された、
@shadowhatさんの記事と合わせてお読みくださいませ。
https://infraapp.blogspot.com/2018/12/aoshomenutanix.html
本題です。
ハイパーコンバージドインフラと言えば、
スケールアウトが売りですよね。
複数台のノードが存在し、
そのノードを追加したり外したりすることで、
柔軟なインフラを実現するなど、
ソフトウェアの技術でノード間が高度に連携し、
全体で統一された機能を実現しています。
特にNutanixでは、「1-Click」コンセプトの下、
Prismのインターフェースを介することで、
非常に簡単にノードの追加削除、
ソフトウェアのアップデートを実行可能です。
この特徴が製品説明機会では、
「1-Clickで実行できます!」
「パスタを作ってる間にアップデートできたぜ!」
と話されていますが、
じゃあ実運用の際にはどうなの?という話があると思います。
答えは、「もっと慎重にやっています」です。
別に製品説明の誇大広告で、
触れ込みが間違っているということではなく、
やはり日本の現場においては、
確実性を重視する傾向にあります。
ではどうしているのかですが、
Nutanixには「NCC」と呼ばれる
クラスタのヘルスチェックツールがあり、
全体の正常性確認をすることが可能です。
図1 NCCの実行画面
※上図では実際にNCCを実行中のため、操作ボタンがグレーアウトしています。
ですので、これを実行してから、
各種クラスタへの作業を行うというのが、まずは基本です。
更に万全を期すためにご紹介したいのが、
次のやり方です。
【作業手順】
①構築完了時点で、正常な状態のNCCデータを取得
②作業実施前にNCCを実行
③①と②の差分を取り、
新たにNG項目になっている箇所がないか確認する。
④問題なければクラスタに関わる作業を実行
⑤作業が完了したらNCCを実行
⑥③での確認結果と⑤を突き合わせて、
新たにNGになった項目がないか確認する
⑦⑤のデータに不備がなければ
現在のクラスタの最新の状況として保管し、
次回のクラスタ作業用時の③インプットとする
この①~⑦を実行することで、
クラスタが潜在的に抱えていた課題に起因した
作業の失敗を回避することが可能です。
図2 NCCの結果画面サンプル
※環境における設定によって、構築時点からすべてPassでないケースがあります。
構築時点の情報を保持しておき、突き合わせをして問題をあぶりだします。
※図右上のリンクからTXTでDLできるので、差分チェックができます。
また、このサイクルは万全を期す、
クリティカルなインフラで使われる場合では、
②~③の作業を作業実施前に複数回実施し、
作業に備えるということも行われています。
作業の流れは次の通りです。
【更に万全を期す場合の作業手順(例)】
(1)1か月前に実施。
作業スケジュール自体をたててよいかの確認。
この時点で大きな課題がないかの確認と、
細かな課題への対処に着手。
(2)2週間前に実施。
大きな変化が起きていないかの確認。
潜在的に何かを抱えていないかは
この段階でクリアされる。
(3)前日に実施。
予定通り実行する最終確認。
ここで問題があれば、作業は中止し、課題対処に移る。
(4)作業の実施。
作業後は⑤~の作業と同様。
こちらの手順はかなり入念に実施していますが、
必ずしもこれが必要だとか、
こうしなければならないというわけではありません。
あくまで作業におけるリスク排除の
一つの手法ということでご紹介させてもらっています。
なお、こう言ったチェックは
Nutanixだけの特別なことではなく、
考え方はvSANなど他のHCIでも同様です。
品質の高い運用を実施する場合には、参考にしてみてください。
今回の投稿は以上です。
明日はWataru Unnoさんの記事です。