第37章: サイトイベント
サイトイベントとは、プラネタリスケールコンピュータの可用性、パフォーマンス、正確性に影響を与える重大なインシデントです。単一サービスへの短時間のレイテンシースパイク(軽微)から、数時間に及ぶ完全なデータセンター障害(重大)まで多岐にわたります。組織がサイトイベントをどう検出し、対応し、学ぶかが、そのシステムの長期的な信頼性を決定します。
サイトイベントのライフサイクルには明確なフェーズがあります:検出、トリアージ、軽減、解決、ポストインシデントレビュー。検出はモニタリングサービスを通じて自動化されるべきです——ヘルスメトリクスが閾値を超えたり、トラフィックパターンに異常が検出されたりするとアラートが発火します。目標は、ユーザーが報告する前にインシデントを検出することです。
トリアージはインシデントの深刻度とスコープを判断します。全ユーザーに影響しているのか、サブセットか?データにリスクはあるか?インシデントは拡大しているか?これらの質問への回答が対応を決定します:誰がページされるか、どのようなコミュニケーションが行われるか、どのような即時のアクションが取られるか。
軽減は、根本原因がまだ理解されていなくても、できるだけ早くサービスを回復することに焦点を当てます。一般的な軽減アクションには、最近のデプロイメントのロールバック、健全なレプリカへのフェイルオーバー、過負荷のコンポーネントへの圧力を減らすためのロードシェディング、不具合のある機能の無効化が含まれます。根本原因分析は後で、ポストインシデントレビューで行われます。