Wie baue und pflege ich Mission-critical Software?

25. April 2024, mit Joel KaczmarekBjörn Wagner


🧠 Joëls Learnings

  1. Bei Mission-Critical-Software hat die Sicherheit höchste Priorität. Es werden umfangreiche Maßnahmen getroffen wie verschlüsselte Kommunikation, kontinuierliche Zertifikatserneuerung, Threat Modeling, Chaos-Tests etc., um Sicherheitsrisiken proaktiv zu minimieren.

  2. Für hohe Stabilität und Verfügbarkeit sind Redundanz, Hochverfügbarkeit und automatisierte Failover-Mechanismen essenziell, um Ausfälle wie einen Datacenter-Brand abfangen zu können.

  3. Ein intensives Monitoring (Observability) ist die Grundlage, um Probleme schnell zu erkennen. KPIs wie Time-to-Inform-Customer und Incident-Management-Prozesse regeln die Fehler-Eskalation und -Kommunikation.

  4. DevOps und Site Reliability Engineers mit spezieller Ausbildung auf Automatisierung und Zuverlässigkeit spielen eine zentrale Rolle im Betrieb der Plattform neben den normalen Entwicklungsteams.

  5. In Post-Incident-Reviews (Retrospektiven, Postmortems) werden Vorfälle systematisch analysiert und Maßnahmen zu Verbesserungen in Code, Monitoring, Prozessen etc. abgeleitet und nachverfolgt.