「Webエンジニアのための監視システム実装ガイド」読了
監視システム実務ベース概論の書籍です。
最終Chapterに構成例があり、どのようなOSSがあるか参考になると思います。
Webエンジニアのための 監視システム実装ガイド info マイナビ 馬場俊彰 Chapter 1 監視テクノロジの動向 残念な事実 「システムは何もしないと壊れる」 「システムはよくわからない状態になる」 本書想定 Webサービス Webシステム 志向 チェック志向 異常検知 メトリクス志向 状態把握 memo 用語 SPA Single Page Application PWA Progressive Web Apps 結果整合性 Eventual Consistency SOA Service Oriented Architecture Microservice DR Disaster Recovery 災害復旧 RUI Real User Monitoring APM Application Performance Monitoring O11y Observability 可観測性 SRE Site Reliability Engineering SREs Site Reliability Engineer MTBF Mean Time Between Failure 平均故障間隔 MTTR Mean Time To Repair 平均復旧時間 SPOF Single Point Of Failure 単一障害点 SNMP Simple Network Management Protocol 時系列 Time Series 時系列データベース Time Series DataBase 生データ Raw Data 閾値 Threshold 原因推定 Root Cause Detection Chaos Engineering カオスエンジニアリング 死活監視 liveness probe 応答監視 readiness probe IOPS Input Output per Second RRD Round Robin Database LTSV Labled Tab Separated Values SLI Service Level Indicator KPI Key Perfomance Indicator flapping detection ばたつき検知 parents 親子関係 BTS Bug Tracking System ITS Issue Tracking System 異常検知 Anomaly Detection RUM Real User Monitoring Chapter 2 監視テクノロジの概要 可用性 Availability 計測 Uptime 稼働時間 一ヶ月 利用不可能 99.98% 10分程度 99.95% 約22分 99.99% フォーナイン 約259秒 99.999999999% イレブンナイン 約0.03ミリ秒 ジャンル チェック メトリクス ログ トレース APM 運用 通知 コミュニケーション ドキュメント チケット 構成要素 観測部分 データ収集部分 データ利用部分 The Twelve-Factory App https://12factor.net/ja/ Chapter 3 監視テクノロジの基礎 時系列データベース RRDTool Graphite OpenTSDB InfluxDB TimescaleDB Chapter 4 監視テクノロジの導入 Chapter 5 監視テクノロジの実装 定番の観測項目 エンドポイント 物理インフラ層 ネットワーク OS ミドルウェア アプリケーション フロントエンド Chapter 6 インシデント対応 実践編 Avoid Blame and Keep It Constructive 「非難せず、建設的であること」 Chapter 7 監視構成例 伝統的なOSS Nagios Graphite Grafana Graylog OpenTelemetry OpenCensus Jaeger 最近のOSS Prometheus Saas利用 Mackerel Loggly New Relic Datadog