🧠 Joëls Learnings
-
Bei Mission-Critical-Software hat die Sicherheit höchste Priorität. Es werden umfangreiche Maßnahmen getroffen wie verschlüsselte Kommunikation, kontinuierliche Zertifikatserneuerung, Threat Modeling, Chaos-Tests etc., um Sicherheitsrisiken proaktiv zu minimieren.
-
Für hohe Stabilität und Verfügbarkeit sind Redundanz, Hochverfügbarkeit und automatisierte Failover-Mechanismen essenziell, um Ausfälle wie einen Datacenter-Brand abfangen zu können.
-
Ein intensives Monitoring (Observability) ist die Grundlage, um Probleme schnell zu erkennen. KPIs wie Time-to-Inform-Customer und Incident-Management-Prozesse regeln die Fehler-Eskalation und -Kommunikation.
-
DevOps und Site Reliability Engineers mit spezieller Ausbildung auf Automatisierung und Zuverlässigkeit spielen eine zentrale Rolle im Betrieb der Plattform neben den normalen Entwicklungsteams.
-
In Post-Incident-Reviews (Retrospektiven, Postmortems) werden Vorfälle systematisch analysiert und Maßnahmen zu Verbesserungen in Code, Monitoring, Prozessen etc. abgeleitet und nachverfolgt.