トラブルシューティングが必要であることを示すエラー警告がポップアップされるのを見ると気が滅入りませんか?ソリューションで問題が解明できて、問題を解決するためにあちこちを探し回ったりする必要がなくなったら、重荷はずいぶん軽くなると思いませんか?

現代の IT ネットワークは、小売、製造、銀行、金融サービス、航空宇宙、運輸、政府、公共セクターの慈善団体など、数え上げればきりがないほど、あらゆる組織の活動を発展させていくための根幹を支える基盤として、ますます重要性を増しています。電子商取引その他のデジタル化の普及に伴って、どんな組織でも、日々の業務を実行するためには、IT ネットワーク、システム、アプリケーションを常時稼働させる必要があります。

現代 IT インフラストラクチャのインパクト

IT ネットワークは、重要性の高まりとともに、ますます複雑化しています。少し前までは、スイッチ、ルーター、ファイアウォール、モデム、有線 LAN、有線 WAN で構成されるシンプルなインフラストラクチャだったものが、有線・無線ネットワークの設備、数多くのゲートウェイ、ハブ、ブリッジなどが接続された IT エコシステムへと肥大化し、IoT デバイス、スマートセンサー、アプリなども次々に追加されています。

このような IT ネットワークの変化がネットワーク運用担当者に与える影響は多岐にわたります。ログに記録されるインシデントの数が急増して作業量が大きく増大し、インフラストラクチャ内のコンポーネント数が多過ぎるので根本的な原因を解明してトラブルシューティングするのに長時間を要するため平均修復時間(Mean Time To Repair、MTTR)が長くなります。これらの影響は明らかですが、あまり議論されないインパクトもあります。それは、すでにオーバーワークになっているIT部門に対する社内の上級管理職からのプレッシャーの増大です。特に基幹業務責任者は、ネットワークが停止してビジネスを遂行できなかったり顧客の機嫌を損ねたりすると、速やかな復旧を強く要求します。また、ネットワークの稼働状況が不安定であれば、パートナーやサプライヤーの業務に支障が出る可能性もあります。

IT 運用能力をマッピングし、効率性を上げて成果に結びつける方策を模索するためにオペレーション成熟度モデルを採用する企業が増えています。オペレーション成熟度モデルの1つが、ガートナーのITインフラストラクチャとオペレーション成熟度モデル(I&O Maturity Model)で、総合的な成熟度を以下の6つのレベルに分類しています。

  • サバイバル
  • アウェアネス
  • コミットできている
  • プロアクティブ
  • サービス提携可能
  • ビジネスパートナーシップ

IT 運用能力に関する4つの主な運用モードも、成熟度モデルに類似しています。

  • モード1 – リアクティブ(反応的)
  • モード2 – プロアクティブ(積極的)
  • モード3 – プレディクティブ(予測的)
  • モード4 - プリエンプティブ(先制的)

一つずつチェックしながら、なぜより高いレベルのIT運用能力が求められるのかを考えてみたいと思います。

モード1 – リアクティブ(反応的)

このモードで IT 運用する組織は、基本的に問題が起こったら解決するというパターンになります。インシデントがエンドユーザーまたは顧客によって報告されると、通常はヘルプデスクのシステムにインシデント(またはチケット)が記録され、分析して解決するために IT 部門のエンジニアに送信されます。このモードをとっている組織は、多くの場合、管理者がそれまで培ってきたノウハウを駆使して問題解決にあたることになります。

モード2 – プロアクティブ(積極的)

このモードでは、IT 部門は、ネットワークのコンポーネントまたはシステムに問題が生じて停止しそうになった時点で、それを検知できます。たとえば、ディスク容量のしきい値を超えたときに警告をトリガーするように設定しておくことで、ディスクが満杯になる前に問題を知ることができます。管理者のノウハウと「制約ベースの IT ツール」の両方が必要です。つまり、管理者が測定可能な特定のパラメータのしきい値を設定し、しきい値を超えたときにツールが警告を通知します。

モード3 – プレディクティブ(予測的)

日常のネットワーク運用に影響する可能性がある問題について、根本的な原因を把握でき、解決するための方法がわかっているモードです。

モード4 – プリエンプティブ(先制的)

これは最高の動作モードであり、日常のネットワーク運用に影響する可能性がある問題について、真の原因を解明して根本的な解決策を実施済みというレベルです。

より高いオペレーション成熟度モデルへの進展

組織がより高いレベルの運用モードに移行するにはどうすればいいのでしょうか?

リアクティブ・モード(問題が起きてから解決)での運用は、マンパワーだけで問題解決しようとする、最も非効率的で効果が出にくい手法です。時間が経てば経つほどコストがかさみ、拡張性もありません。

ヘルプデスク・ソフトウェア、ネットワーク監視ソフトウェアなどの付加価値 IT サポートツールを導入し、IT サポートの処理のサポートプロセスを文書化することによって、インシデントを記録し、知識データベースを構築することができます。この知識データベースは時間の経過とともに拡充され、類似の問題がある程度パターン化できるようになります。ツールを利用して情報を収集し、それに人間のノウハウを組み合わせることで、プロアクティブ・モードに移行することができます。

プロアクティブ・モードになれば、プレディクティブ・モードへの移行は、その延長線上にあります。障害が発生した箇所を特定し、根本原因を解明するための IT サポートツールと IT サポートのプロセスを拡張・強化して、データを活用して問題を解決するための情報を IT オペレーション担当者に伝え、MTTR を短縮できます。

そして、もう一歩踏み出すことで異なる次元にステップアップすることができます。上記3つの動作モードは、効率性は異なるものの、基本的には対応型の取り組みになります。「常時稼働」を旨とする IT ネットワークを持つ多くの企業にとって戦略的に重要なことは、問題を発生前に先取りし、発生を防止するための事前対策を講することができるレベルに到達することです。先進的な IT ヘルプデスクとネットワーク監視ツールを使用すれば、豊富な知的資本を保有する膨大なデータセットを照合して、さらなる効率化と効果が上がる戦略を推進できます。

人工知能/機械学習(AI/ML)や、ネットワークを積極的にスキャンし、停止を引き起こす可能性のある問題やセキュリティ脅威を明らかにするための分析ツールを使用して、IT オペレーションとインフラストラクチャ・ツールを強化しようとする企業が増えています。これらのツールの出力は、組織内の知的資本の他のソースを検索/スキャンする他のシステムの出力と組み合わせて、意思決定に使えるレベルの情報を生成することができます。

たとえば、いくつかの大規模企業と中規模企業にネットワーク管理サービスを提供するマネージド・サービス・プロバイダの場合を考えましょう。ツールを使って、顧客契約を保持するデータベースをスキャンしたり、SLA(Service Level Agreement)内容を検索したりすることができます。すぐに行動しなければ複数の主要な顧客に障害を引き起こす可能性がある潜在的な問題を管理システムが警告したとき、どの顧客を優先して問題解決すべきかを、全体的な契約額または合意されたSLAのしきい値に基づいて決定することができます。このように「商用/契約上の」データ」と「運用ネットワークのインシデントデータ」を組み合わせることで、非常に強力な意思決定支援ツールとして利用できます。

ソフトウェアで定義されたネットワークとデバイスの出現により、ネットワーク問題や脅威に対処するソリューションは、人間の介入を必要とすることなく自動的に展開可能になりました。しかし、AI/ML(人工知能/機械学習)はまだ進化段階にある科学技術であり、長年の IT ネットワーク経験に基づく人間のノウハウと、これらの次世代ツールから得られる情報や人間がアシストしてチューニングされたツールセットを組み合わせることによって、最大限の成果が得られるはずです。

IT ネットワークが今後もますます拡張され、さらに複雑化していくことは間違いありません。これらのネットワークの維持、運用、修正を担当できる熟練した IT 管理者は現在も将来的にも不足しています。IT インフラストラクチャとオペレーション成熟度をアップさせる次世代ツールを導入して、人間の知能と AI/ML を利用して得られるアウトプットを組み合わせたサービスが求められるでしょう。

プリエンプティブ運用モードに移行することができた組織は、IT インフラストラクチャの運用コストが削減でき、優れた顧客エクスペリエンスで高評判を得ることができます。