
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
- 作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/08/12
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
なぜ数値目標を決めるのが大事か?
明確な数値目標は、意思決定コストを下げる
数値を決めることで意思決定コストが下がる例
- エラーバシェット
エラーバシェットとは?
チーム内で合意が取れた、一定期間内に許容できる予定外のシステムダウン時間の合計
なぜエラーバシェットがあるのか
機能追加と信頼性向上どちらに注力するか悩むことが無くなる
- エラーバシェットに余裕がある間は、機能追加にリソースを割く
- 逆に、いまのままだとエラーバシェットが無くなりそうならば、信頼性向上にリソースを割く
信頼性向上の施策の優先順位に悩むことが無くなる
たとえば、ある障害のリカバリに掛かる時間が、どれだけエラーバシェットにインパクトを与えるか? で判断できるようになる
- エラーバシェットが15分なのに、リカバリに30分掛かるならば、それは必ず自動化すべきと判断できる
過剰な信頼性向上をしなくなる
- SLA 100%は実現不可能
- 一定以上信頼性を上げるのには、指数関数的に開発コストが上昇する
感想
- スプリント計画時にエラーバシェットをチェックすると、次やるべきことが明確になりそう