最近我們經常討論該如何監控網路。我們探討過主動監控相較於被動監控、SNMP 以及 sFlow 與 NetFlow 的比較,唯獨警示功能這方面,我們始終只是輕描淡寫地提過。
監控網路是一種有益的做法,但是,如果無從得知哪裡出了問題,空有監控技術也只是徒勞無功罷了。好用的警示系統能讓您在問題影響使用者之前主動因應處理,但是,倘若警示系統設定不當,反而會成為燙手山芋,不但可能會干擾業務運作、人員過勞,更糟的是會引起「警示疲乏」,導致使用者忽略真正重要的警示。成天被監控系統發出的警示疲勞轟炸,登入系統後卻發現系統根本沒有問題,只要有過類似經驗的人,都能證明以上的說法。
總而言之,說警示功能是網路監控系統當中最重要的一環並不為過,那麼,設定不當的情況為何如此普遍呢?這篇部落格文章將探討關於警示功能的注意事項,同時也會談談設定得當的警示何以能夠省時、省錢、省力,甚至能幫助您保持理智。
缺點:誤報、警示風暴以及警示疲乏
討論良好的警示功能之前,先來看看設定不當的系統可能會引發哪些問題:誤報、警示風暴,還有最糟糕的警示疲乏。
您收到了一則故障警示,登入後卻發現一切正常,這就是誤報。相信我,半夜收到誤報是最糟糕的一件事。出現誤報的原因可能是閾值、輪詢期間或處理原則之類的設定不正確。舉例來說,假設您的監控工具設定是每 60 秒輪詢一次主動監控程式,但您卻將處理原則設定為一發生故障馬上寄電子郵件通知您,那麼,您可能就會收到許多無謂的警示。
如果有一台裝置出現故障,而與這台裝置同屬一個階層的所有相依裝置全數會發出警示,讓您知道裝置連線中斷,這種情形就是發生了警示風暴。當然,您知道發生狀況了,但同時您的收件匣也已經湧入幾十封警示郵件。相依性對應可以避免發生這樣的情況。
以上這兩種問題都有可能消磨使用者對警示功能的信任程度,最終引發我們要探討的最後一個問題:警示疲乏。
如果有人不斷收到大量警報 (警示),最後開始對這些警示麻木不仁,這就是警示疲乏。換句話說,所有警示對這個人而言都成了背景噪音,真正重要的警示也會淹沒在其中。最糟糕的情況是,員工甚至乾脆設定電子郵件篩選條件來擋住警示,這就造成了非常嚴重的錯誤。出現在垃圾郵件資料夾裡的警示根本無用武之地。
設定得當的警示的五項重要特質
我們已經知道糟糕的警示功能會有什麼樣的特徵,接下來就來談談好的警示功能。設定得當的網路監控系統應該要讓團隊隨時掌握網路環境當中的一切,以利在對使用者造成不良影響之前解決問題。那麼,怎麼做才算是設定得當?警示應具備以下五項特性:
確實可行:不要讓待命技術人員為了低優先級警示或參考資訊性質的警示而煩心。設定警示時一定要慎選,不要讓員工為了沒用的警示疲於奔命。舉例來說,您可能並不想知道 Windows 系統或網域控制站發生了哪些提供資訊說明的事件,所以,您只需要為這些系統設定關鍵警示就行了。
真實可信:誤報和過多的低優先級警示會消磨系統可信程度,導致使用者忽略真正重要的警示。
能區分相依性:您不需要在每個相依裝置發生故障時都收到一則警示訊息。如果閘道裝置出現故障,這就是您需要收到的唯一一則警示,而不需要其他每一台相連裝置也各發出一則裝置連線中斷警示。
能升高等級:您應能按照既定的階層順序發送警示通知,並且可以升高警示等級,將其直接發送給適當的人員,避免員工因為收到多則警示而疲於奔命。如此一來,倘若是技術人員能夠處理的一般問題,除非技術人員沒有回應,否則根本不需要發警示給您的系統管理員。
有警報功能:不論您的技術人員在哪裡,都應該能夠收到警示!不是說一定要警鈴大響、狂閃紅色警示燈,而是您需要有不同的警示選項。 無論是透過電子郵件、簡訊或 Slack 訊息,您需要在發生問題時馬上知情。
WhatsUp Gold 對停止警示風暴及預防警示疲乏的助益
如果能運用像 WhatsUp Gold (WUG) 這樣功能強大的網路監控工具,要設定有效率又確實可行的警示功能就輕鬆多了。
WUG 提供幾項現成可用的功能,可以幫助您輕鬆設定確實可行的網路裝置警示,其中包括:
警示升級:您可以在 WUG 警示中心設定通知原則,根據網路元件的重要程度升級警示 – 警示功能可以從自動產生問題支援申請單到發送警示給事先指定的管理員。
警示確認:只要第一位回應人員確認,系統就會認定有人可以處理問題,除非有通知原則觸發警示,或是需要在解決問題之後記錄訊息,否則不會再繼續發送警示。這種方式可以確保能恰當解決未在特定時限內解決的問題。同樣地,可以在確認流程中加入與所採取措施相關的資訊,從而提供問題解決方法資料,一旦再次發生問題時即可派上用場。
能區分相依性的警示功能:WhatsUp Gold 會自動將相依性規則套用於找到的第 2 層和第 3 層裝置,預防發生警示風暴現象。以上設定也可以手動操作。
警示閾值:您可以設定希望監控的每一個網路及應用程式環節,按一定的間隔或閾值觸發處理操作。可以將重要裝置或應用程式的閾值設得比其他裝置的閾值低。