第34章: 管理

プラネタリスケールコンピュータの物理インフラストラクチャを管理することは、膨大な運用上の課題です。複数の施設にまたがる数千台のサーバーを抱えているため、ハードウェア障害は日常的に発生します。ディスクが故障し、メモリにエラーが発生し、ネットワークカードが誤動作し、サーバー全体が応答しなくなります。効果的なインフラストラクチャ管理には、検出、診断、是正、交換のすべてのステップで自動化が必要です。

自動化されたハードウェア管理システムは、すべてのコンポーネントのインベントリ、健全性、ライフサイクルを追跡します。ディスクが（SMARTメトリクスを通じて）差し迫った障害の兆候を示した場合、システムは自動的に影響を受けるサーバーからトラフィックをドレインし、交換をスケジュールし、正常なレプリカにデータを移行します。サーバーが応答しなくなった場合、システムは電源サイクルを実行し、回復しない場合は物理的な修理が必要であるとマークします。

ファームウェアとBIOSのアップデートは、最小限の中断で数千台のサーバーにロールアウトする必要があります。これには、更新前にサーバーからワークをドレインするためのスケジューリングシステムとの連携と、更新がリグレッションを引き起こしていないことの検証が必要です。これらの操作の規模は手動管理を不可能にします——すべてが自動化され、監査可能でなければなりません。