スキップしてメイン コンテンツに移動

投稿

ラベル(SRE)が付いた投稿を表示しています

書籍レビュー(備忘録)『SRE(サイトリライアビリティエンジニアリング)』

SRE(サイトリライアビリティエンジニアリング)の備忘録 徹底と献身、準備とドキュメンテーションの価値を信じること。 運用(定型)業務の合計を50%以下に。 明文化が大切(業務、環境)。 ポストモーテム→事後検証・振り返り、レビューの重要性。 エラーバジェット[許容可能なエラー率(時間、範囲やレベル)]→いかなる場合でも100%を目指すのは間違い。 1章 モニタリング→サービスの健全性と可用性を追跡(アラート、チケット、ロギング、有効な出力)。 変更管理の自動化→繰り返しタスクに対して疲労、慣れ、軽視、不注意といった一般的な問題を回避。 3章 稼働時間を最大化するよりも、可用性におけるリスクとイノベーションの速度、およびサービス運用の効率性とのバランスをとる。 停止時間よりもリクエスト成功率を可用性の定義とする。 可用性はサービスが提供する機能と市場におけるサービスの位置づけによって決まる。 カナリアテストを組み込む設計 SLO-稼働時間=損失可能な信頼性 4章 SLI/SLO/SLAの違い SLOは『SLI ≦ ターゲット、もしくは下限 ≦ SLI ≦ 上限』 5章 トイル≠やりたくない仕事 雑務=オーバーヘッド ただし、つまらない仕事には長期的な価値があることも。 トイルの定義 サービスを稼働させることに関係のある作業 手作業で繰り返し行われ  自動化する事が可能 戦術的で長期的な価値を持たず 作業量がサービスの成長に比例する傾向を持つ 6章 4大シグナル→レイテンシ、トラフィック、エラー、サチュレーション(システムリソースの利用率) ページに人が対応するという事は未来のシステム改善にあたる時間が無くなるという事。 11章 運用の負荷を計測(日々のチケット、インシデントなど) 28章 SREの教育方法『推奨されるパターン』と『アンチパターン』、特にアンチパターンは普段の業務で行っていないか参考になる。 『オンコールとその先へのSERの立ち上げの設計図』(抽象的↔実践的方法) 意識的に理論と実践を適切に組み合わせて学習させる。 学習とプロジェクトを担当させることで、目的と生産性の感覚を身につかせる。 30章 正式なSLI/SL...