SRE(サイトリライアビリティエンジニアリング)の備忘録
- 徹底と献身、準備とドキュメンテーションの価値を信じること。
- 運用(定型)業務の合計を50%以下に。
- 明文化が大切(業務、環境)。
- ポストモーテム→事後検証・振り返り、レビューの重要性。
- エラーバジェット[許容可能なエラー率(時間、範囲やレベル)]→いかなる場合でも100%を目指すのは間違い。
- モニタリング→サービスの健全性と可用性を追跡(アラート、チケット、ロギング、有効な出力)。
- 変更管理の自動化→繰り返しタスクに対して疲労、慣れ、軽視、不注意といった一般的な問題を回避。
- 稼働時間を最大化するよりも、可用性におけるリスクとイノベーションの速度、およびサービス運用の効率性とのバランスをとる。
- 停止時間よりもリクエスト成功率を可用性の定義とする。
- 可用性はサービスが提供する機能と市場におけるサービスの位置づけによって決まる。
- カナリアテストを組み込む設計
- SLO-稼働時間=損失可能な信頼性
- SLI/SLO/SLAの違い
- SLOは『SLI ≦ ターゲット、もしくは下限 ≦ SLI ≦ 上限』
- トイル≠やりたくない仕事
- 雑務=オーバーヘッド
- ただし、つまらない仕事には長期的な価値があることも。
- トイルの定義
6章
- サービスを稼働させることに関係のある作業
- 手作業で繰り返し行われ
- 自動化する事が可能
- 戦術的で長期的な価値を持たず
- 作業量がサービスの成長に比例する傾向を持つ
- 4大シグナル→レイテンシ、トラフィック、エラー、サチュレーション(システムリソースの利用率)
- ページに人が対応するという事は未来のシステム改善にあたる時間が無くなるという事。
- 運用の負荷を計測(日々のチケット、インシデントなど)
28章
- SREの教育方法『推奨されるパターン』と『アンチパターン』、特にアンチパターンは普段の業務で行っていないか参考になる。
- 『オンコールとその先へのSERの立ち上げの設計図』(抽象的↔実践的方法)
- 意識的に理論と実践を適切に組み合わせて学習させる。
- 学習とプロジェクトを担当させることで、目的と生産性の感覚を身につかせる。
- 正式なSLI/SLO/SLAがない場合、クライアントからの不満を招く。
- 従来の運用モデルとの違いに苦戦しているチームは特定の部分に悩まされている理由を明確にできない。
- 一人で解決しない、チームに呼びかけ、チームに説明を求められること。
31章
- SREチームはシステム工学、アーキテクチャスキル、リーダーシップセンス、ソフトウェアエンジニアリングのスキル、プロダクトマネージメントのスキルや多様な経験をもつメンバから構成される。
- プロダクションミーティングはサービス指向で行われ、進行状況について全員が同じ認識になること。
- プロダクションミーティングのアジェンダ参考。
- プロダクション環境で予定されている変更
- メトリクス
- 障害
- ページされたイベント
- ページされなかったイベント
- ページされるべきだったにもかかわらず、ページされなかった問題
- ページすべきものではないものの、注意を引く必要がある問題
- ページすべきではなく、注意を引く必要もない問題
- これまでのアクションアイテム
34章
トレーニング
- 設計の概要
- システムに対するさまざなリクエストのフローの詳細
- プロダクション環境のセットアップの説明
- システム運用のさまざまな面についての実践演習
コメント
コメントを投稿