第43章: コミュニケーション
サイトイベント中、コミュニケーションは技術的対応と同じくらい重要です。ユーザーは問題が存在すること、対処中であること、いつ解決される見込みかを知る必要があります。内部チームは努力を調整し、調査結果を共有し、作業の重複を避ける必要があります。効果的なコミュニケーションが、うまく管理されたインシデントと混沌としたインシデントの違いになり得ます。
インシデント中の内部コミュニケーションは、通常、すべての対応者が観察結果を共有しアクションを調整できる専用チャネル(チャットルーム、ブリッジコール、またはその両方)を使用します。インシデントコマンダーが対応をリードし、タスクを委任し、進捗を追跡し、決定を下します。スクライブがイベントのタイムライン、取られたアクション、その結果を記録し、ポストインシデントレビューの原材料を作成します。
外部コミュニケーションは透明性と正確性のバランスが必要です。根本原因に関する時期尚早な声明は誤りである可能性があり、信頼を損ないます。ステータスページの更新は、何がわかっているか(インシデントのスコープと影響)、何が行われているか(進行中の軽減アクション)、次の更新はいつか(期待値の設定)を述べるべきです。原因について推測するよりも「調査中」と述べる方が良いです。
ポストインシデントレビューは最も価値のあるコミュニケーション成果物です。責任を問わない文書として書かれ、タイムライン、根本原因、寄与要因、是正措置を記述します。これらのレビューは、組織全体で共有され、機関記憶を構築し、同じクラスのインシデントの再発を防ぎます。最良のエンジニアリング組織は、ポストインシデントレビューを官僚的なオーバーヘッドではなく、最も重要な学習メカニズムの1つとして扱います。