Problém
Časté incidenty a „nevieme prečo“
Slabá viditeľnosť, žiadne metriky, ad-hoc zásahy.
Riešenie
Monitoring + alerting, logovanie, incident postupy, stabilizačné zmeny.
Výsledok
−70 % incidentov a kratší čas obnovy.