ネットワークインフラストラクチャが現代ビジネスのバックボーンだとすると、接続するサーバーは心臓にあたります。データの保存、処理、および関連するビジネスアプリはサーバー・マシンに依存しており、サーバーを常に正常に稼働させることは、IT 部門の最重要課題です。

では、サーバーの稼働状況が悪化しているという兆候は確認できるでしょうか?どのようにサーバーを監視し、正常に稼働させ続けることができるでしょうか?

1. 「心拍」の低下

サーバーの稼働状況については、医師が患者の健康状態をチェックするのと同じように、バイタル(生命徴候)という視点から考えるとわかりやすいかもしれません。サーバーの稼働状況を示すバイタルリストのトップに置かれるのはサーバーの「心拍」です。幸いにも、これはチェックするのが最も簡単なものの一つです。通常、単純な ping コマンドで実行でき、サーバーが正常な心拍を示せば、正常に稼働していて通信を受け入れていることがわかります。

Web サーバーやファイルサーバーなどの特定の通信の役割を持つサーバーの場合、ポート番号(80 または 21 など)を指定してテストするよう調整することが推奨されます。サーバーの心拍がフラットになっていたら (ping で応答がない状況が続けば)、おそらく電源が落ちているか、ネットワークアクセスができなくなっているかのどちらかです。

2. サーバーログ

サーバーログは、サーバーの正常性をチェックするためのもう1つの重要な情報です。ログは、基本的に、サーバーのダイアログを常時監視しているので、小さな問題でも記録されます。ただし、効率化して最大の効果を得るためには、監視を自動化プロセスに統合する必要があります。警告とエラーを整理して集約し、可視性を高めるために定期的に通知するような形に自動化します。サーバーで問題が発生し始めたときに、これらのログの中央リポジトリがあると、根本的な原因をより効率的に見つけるのに役立ちます。

3. 遅延時間

システムのパフォーマンスが不安定になったり低下したりしたら、サーバーに問題がある可能性があります。パフォーマンスを測定するには、主要なシステム機能の応答時間をチェックします。この監視情報は、サーバーの潜在的な問題への早期の警告サインになり得ます。

より詳細な情報として、サーバーの使用率を追跡して、ハードウェア問題がないかチェックすることもできます。サーバーに固有のハードウェアを定期的にチェックするよう監視設定します。例えば、データ処理に重点を置いたアプリケーションサーバーでは、CPU やメモリ使用率のしきい値を低く設定しておきます。使用率がしきい値を超えたらすぐにアラートが送信され、対処にとりかかることができます。

2つの重要な要件

これらの「バイタル」は、サーバーの全体的な状態をすばやく確認し、潜在的な問題を検出するための有用な情報を提供します。では、IT 部門は、ヘルプデスクに寄せられるチケットを処理するのに忙しい中で、どのようにすればサーバーの稼働状況の継続的な監視を続行できるのでしょうか?そのために重要なのは、自動化と集中化です。

自動化が重要な理由はかなり明確です。心拍をチェックする ping、使用率情報を得るためのポーリング、ログの集約は、自動化に適したタスクであり、自動化によって IT 管理者が費やさなければならない時間が削減できます。サーバーの稼働状況を効果的に監視する秘訣は、これらのタスクの集中化にあります。サーバーに関するすべての重要な情報を一か所に統合し、可視性を高めることで、顕在化する前に問題を検知したり、迅速なトラブルシューティングができる、優れたサーバー監視システムを確立できます。

サポートショップで手に入れることができる様々な監視用ツールをすべて利用しても、それらが何を意味し何と関連しているのかを把握できなければ、ネットワーク環境の統計情報の山を積み上げるだけでうまく活用できません。それらの情報が適切に可視化されていなければ、なおさらです。

優れたネットワーク監視ソリューションには、この2つの重要な要件、自動化と集中化が備わっています。システムのバイタルからハードウェア設定に至るまで、すべての情報が自動的に収集されレポートが生成されて、統合ダッシュボードに反映されます。サーバーの稼働状況の継続的な監視のための管理者にかかる負担は大幅に軽減されます。高い可視性を提供し、測定値が事前に定義されたしきい値を超えたときには自動的に警告通知がされるので、速やかに対処することが可能です。

サーバーの稼働状態の監視を自動化し、潜在的な問題の兆候があれば警告を通知するよう設定すれば、サーバーを常に正常に稼働させるためのプレッシャーに神経過敏になる必要はありません。集中化による高い可視性によって、問題が顕在化する前に的確で迅速なトラブルシューティングを行うことができます。