第38章: 検知

あらゆるインシデント管理の第一歩は、何かが間違っていることを知ることです。検知は、サイレントな障害とアクティブな対応の間の橋渡しです。組織がインシデントを早く検知するほど、影響範囲は小さく、復旧時間は短くなります。検知レイテンシー——問題が発生してから誰かにアラートが通知されるまでの時間——は、チームが追跡できる最も重要な信頼性メトリクスの1つです。

自動検知はモニタリングサービスが収集するシグナルに依存します：ハートビート、レイテンシーパーセンタイル、エラーレート、飽和メトリクス、注文完了率などのビジネスレベルの指標。アラート閾値は、これらのシグナルが通常の変動からアクション可能な領域に移行するタイミングを定義します。閾値が低すぎるとアラート疲れを生み、高すぎるとインシデントが見逃されます。異常検知——正常なパターンを学習し偏差をフラグ付けする統計モデル——は、新しい障害モードをキャッチするために静的閾値を補完できます。

すべてのインシデントが自動システムでキャッチされるわけではありません。ユーザーレポート、サポートチケット、ソーシャルメディアの言及は、特に内部メトリクスがキャプチャしない方法でユーザー体験に影響する問題に対して、貴重な検知チャネルです。堅牢な検知戦略は、自動モニタリングと人間の観察を組み合わせて、どのカテゴリの障害も長期間見逃されないようにします。

オンコールエンジニアは検知チェーンにおける人間のリンクです。アラートが発火すると、オンコール対応者はそれを確認し、本当のインシデントを表しているかどうかを評価し、次のステップを決定する必要があります。ルーティングサービスは、対応者が調査している間に不健全なバックエンドからトラフィックを自動的にシフトでき、即時の人間の介入なしに時間を稼ぎます。