ひとことで言うと
監視は、「壊れてから気づく」のを減らすために、サーバーやサイトの状態を見張り続ける仕組みです。公開中のサービスでは、正常か異常かを把握できないと復旧も改善も遅れます。稼働率 を高く保ちたいなら、まず監視が土台になります。
たとえ話でもう少し詳しく
大きなビルには管理室があり、エレベーター停止や火災報知器の異常をすぐ見つけられるようになっています。監視も同じで、CPU 使用率、ディスク残量、Web の応答時間、証明書期限などを継続的に見て、閾値を超えたら担当者へ知らせます。人がずっと画面を見張るのではなく、仕組みで異常を拾いやすくするのがポイントです。
よく出る場面・使いどころ
- Web サイトが落ちた時にすぐ気づきたいとき
- ディスク容量不足や証明書期限切れを事前に知りたいとき
- 障害対応の初動を早めたいとき
- ロードバランサー 配下で不調サーバーを早く見つけたいとき
似た言葉との違い
- ヘルスチェック: 経路制御や自動切り離しのための確認。監視は人や運用へ知らせる役割が強い
- 稼働率: 結果としてどれだけ動いていたかを示す指標。監視はその状態を把握する仕組み
- バックアップ: 壊れた後に戻す備え。監視は壊れ方に早く気づくための仕組み
実務で気にするポイント
- 通知を増やしすぎると慣れて見逃すので、重要度の設計が必要
- 障害の兆候を見る監視と、単純な死活確認は分けて考える
- TLS 証明書やドメイン更新期限のような運用項目も対象に入れる
- 通知後に誰が何分以内に動くかまで決めないと、監視だけあっても止まりやすい
関連して読みたい用語
- ヘルスチェック: 自動で切り離す確認と、人へ知らせる監視の違いを整理できます
- 稼働率: 監視を続けた結果、どの程度安定運用できているかを見られます
- バックアップ: 異常検知の先にある復旧準備として重要です
- TLS: 証明書期限の監視が必要になる代表例です
注意: 監視は「通知が来る仕組み」であって、自動で全部直してくれるわけではありません。通知後の対応手順まで決めて初めて役に立ちます。