第39章: エスカレーション
インシデントが検出されたら、次の重要な判断はどれだけ緊急に対応するか、誰が関与する必要があるかです。エスカレーションは、適切なタイミングで適切な人々にインシデントを上げるプロセスです。エスカレーション不足は重大な問題を少なすぎる対応者に任せます。過度のエスカレーションは注意力を浪費し、深刻度システムに対するシニシズムを生みます。
深刻度レベルはインシデントの緊急性に関する共有語彙を提供します。一般的なスキームは4段階を使用します:全ユーザーに影響する完全なサービス障害にSEV1、大きなサブセットに影響する重大な劣化にSEV2、限定的なユーザー影響の部分的な問題にSEV3、即時のユーザー影響のない軽微な問題にSEV4。各深刻度レベルは特定の対応にマッピングされます:誰がページされるか、どれだけ迅速に対応すべきか、どのようなコミュニケーションが期待されるか。
インシデントコマンダーの役割はエスカレーションの要石です。この人物がインシデント対応を所有します:対応者を調整し、調査タスクを委任し、さらなるエスカレーションの判断をし、ステークホルダーへのコミュニケーションが流れることを保証します。インシデントコマンダーは最も上級のエンジニアである必要はありません——プレッシャーの下で冷静に対応を組織できる人である必要があります。
マルチサービスインシデント——あるシステムの障害が他のシステムにカスケードする場合——は、チーム間の調整を必要とします。モニタリングサービスはどのサービスが影響を受けているかを明らかにでき、サイトイベントフレームワークは適切なチームを集めるための構造を提供します。