2018年12月4日火曜日

実運用視点でみる #Nutanix クラスタ作業時の考慮事項

本記事は Nutanix Advent Calendar 2018 12月4日分の記事です。

昨日は、@shadowhatさんのNutanixに関する噂の検証記事でしたね。
https://infraapp.blogspot.com/2018/12/nutanix.html
記事の通り、正しくない情報をつかまないように、
注意深く情報を入手してください。


さてさて、Nutanixの機能的な解説については
諸先輩方にお任せするとして、
本日の記事ではちょっと珍しい、
実運用現場での運用視点の話題をお届けします。

12/1に投稿された、
@shadowhatさんの記事と合わせてお読みくださいませ。
https://infraapp.blogspot.com/2018/12/aoshomenutanix.html

本題です。
ハイパーコンバージドインフラと言えば、
スケールアウトが売りですよね。
複数台のノードが存在し、
そのノードを追加したり外したりすることで、
柔軟なインフラを実現するなど、
ソフトウェアの技術でノード間が高度に連携し、
全体で統一された機能を実現しています。

特にNutanixでは、「1-Click」コンセプトの下、
Prismのインターフェースを介することで、
非常に簡単にノードの追加削除、
ソフトウェアのアップデートを実行可能です。

この特徴が製品説明機会では、

「1-Clickで実行できます!」
「パスタを作ってる間にアップデートできたぜ!」

と話されていますが、
じゃあ実運用の際にはどうなの?という話があると思います。

答えは、「もっと慎重にやっています」です。

別に製品説明の誇大広告で、
触れ込みが間違っているということではなく、
やはり日本の現場においては、
確実性を重視する傾向にあります。

ではどうしているのかですが、
Nutanixには「NCC」と呼ばれる
クラスタのヘルスチェックツールがあり、
全体の正常性確認をすることが可能です。

図1 NCCの実行画面






※上図では実際にNCCを実行中のため、操作ボタンがグレーアウトしています。


ですので、これを実行してから、
各種クラスタへの作業を行うというのが、まずは基本です。
更に万全を期すためにご紹介したいのが、
次のやり方です。

【作業手順】
①構築完了時点で、正常な状態のNCCデータを取得
②作業実施前にNCCを実行
③①と②の差分を取り、
  新たにNG項目になっている箇所がないか確認する。
④問題なければクラスタに関わる作業を実行
⑤作業が完了したらNCCを実行
⑥③での確認結果と⑤を突き合わせて、
  新たにNGになった項目がないか確認する
⑦⑤のデータに不備がなければ
  現在のクラスタの最新の状況として保管し、
  次回のクラスタ作業用時の③インプットとする

この①~⑦を実行することで、
クラスタが潜在的に抱えていた課題に起因した
作業の失敗を回避することが可能です。

図2 NCCの結果画面サンプル





















※環境における設定によって、構築時点からすべてPassでないケースがあります。
 構築時点の情報を保持しておき、突き合わせをして問題をあぶりだします。
※図右上のリンクからTXTでDLできるので、差分チェックができます。



また、このサイクルは万全を期す、
クリティカルなインフラで使われる場合では、
②~③の作業を作業実施前に複数回実施し、
作業に備えるということも行われています。
作業の流れは次の通りです。

【更に万全を期す場合の作業手順(例)】
(1)1か月前に実施。
  作業スケジュール自体をたててよいかの確認。
  この時点で大きな課題がないかの確認と、
  細かな課題への対処に着手。

(2)2週間前に実施。
  大きな変化が起きていないかの確認。
  潜在的に何かを抱えていないかは
  この段階でクリアされる。

(3)前日に実施。
  予定通り実行する最終確認。
  ここで問題があれば、作業は中止し、課題対処に移る。

(4)作業の実施。
  作業後は⑤~の作業と同様。

こちらの手順はかなり入念に実施していますが、
必ずしもこれが必要だとか、
こうしなければならないというわけではありません。
あくまで作業におけるリスク排除の
一つの手法ということでご紹介させてもらっています。

なお、こう言ったチェックは
Nutanixだけの特別なことではなく、
考え方はvSANなど他のHCIでも同様です。
品質の高い運用を実施する場合には、参考にしてみてください。

今回の投稿は以上です。


明日はWataru Unnoさんの記事です。