Post Mortem zum Ausfall vom 12 Mai 2026

To read this post in English click here

2 Min. Lesedauer • 13. Mai 2026

Stackfield auf LinkedIn

Sehr geehrte Damen und Herren,

wie Sie sicherlich mitbekommen haben, waren sämtliche Stackfield-Systeme gestern zwischen 7:15 Uhr und 23:20 Uhr größtenteils nicht erreichbar. Uns ist bewusst, welche erheblichen Auswirkungen ein solcher Ausfall auf Ihre tägliche Arbeit hat, und wir bedauern die entstandenen Einschränkungen außerordentlich.

Mit einer Dauer von rund 16 Stunden war dies der mit Abstand längste Ausfall in unserer 14-jährigen Unternehmensgeschichte.

Was ist passiert?
Unmittelbar um 7:16 Uhr haben wir den Ausfall intern bearbeitet und direkt festgestellt, dass ein Problem auf der Seite unseres Infrastrukturproviders IONOS vorliegt. Nach erfolgter Kontaktaufnahme stellte sich heraus, dass ein Problem auf der Speicherebene vorlag. Dieses Problem konnte zunächst von IONOS durch Änderungen auf der Software-Ebene behoben werden, wodurch unsere Systeme und Stackfield ab 11:20 Uhr wieder vollständig online waren. Gegen 13:05 Uhr kam es jedoch zu erneuten Störungen, welche sich als deutlich schwerwiegender erwiesen und den kompletten Cluster am Standort Karlsruhe stillgelegt haben.

Zurückzuführen ist dies nach den uns aktuell vorliegenden Informationen auf einen umfassenden Hardwaredefekt über den gesamten Cluster und nicht den Ausfall einer einzelnen Komponente, wodurch umfassende Arbeiten und eine Wiederherstellung notwendig waren. Nach Abschluss der Arbeiten waren unsere Services um 23:20 Uhr wieder vollständig verfügbar.

Alle unsere Systeme sind mehrfach redundant ausgelegt: Die Festplatten werden vierfach in unterschiedlichen Brandzonen gespiegelt, zusätzlich werden einzelne Maschinen sowohl lokal als auch an einem zweiten Standort repliziert und vorgehalten. Dies sorgt zusätzlich dafür, dass bei einem Defekt im Regelfall keine Unterbrechung wahrzunehmen ist, in diesem Fall hat der Hardware Defekt jedoch weite Kreise gezogen, wodurch der Ausfall in der gesamten Infrastruktur spürbar war.

Vorranging bestand das Problem, dass nicht einzelne Komponenten ausgefallen sind, sondern der gesamte Speichercluster, wodurch 14 unserer Server heruntergefahren werden mussten. Bezüglich der genauen Hintergründe befinden wir uns aktuell mit IONOS in der Aufarbeitung der Geschehnisse. Die Komplexität des Wiederaufbaus können Sie auch der offiziellen Incident Meldung von IONOS entnehmen: https://status.ionos.cloud/incidents/p6pjqxzgkh1g

Eine proaktive Benachrichtigung per E-Mail war uns leider nicht möglich, da unsere Systeme der Plattform eng miteinander verzahnt sind und dieser Service ebenso vom Ausfall betroffen war. Hier versprechen wir aber für die Zukunft Besserung. Den aktuellen Status konnten wir Ihnen daher nur im direkten Kontakt über unser Support-Team per Telefon und E-Mail sowie über unsere Statusseite https://status.stackfield.com weitergeben.

Welche Konsequenzen ziehen wir?
Wir werden den Vorfall bis ins letzte Detail gemeinsam mit IONOS aufarbeiten, ein solcher Ausfall ist für uns absolut inakzeptabel, und wir werden hieraus klare Schlüsse ziehen. Zusätzlich werden wir die Auffindbarkeit unserer Status-Seite verbessern und das an die Plattform angelagerte E-Mail System verbessern, um in solchen Fällen besser reagieren zu können.

An dieser Stelle möchte ich ausdrücklich betonen, dass zu keinem Zeitpunkt ein Datenverlust zu befürchten war und dass sich unser gesamtes Team den gestrigen Tag vollständig der Behebung des Vorfalls gewidmet hat.

Solche Vorfälle sind unglaublich ärgerlich, treten in dieser Komplexität jedoch sehr selten auf. Genau aus diesem Grund verfügen wir über ein umfassendes Sicherheitskonzept, um etwaige Risiken zu bemessen und uns vor diesen zu schützen. Wie man es anhand diverser Fälle in unserer Branche sieht, ist ein Schutz vor allen Eventualitäten leider nicht möglich, wodurch selbst Ausfälle über sehr viele Stunden oder sogar Tage bekannt sind (wie z.B. der Microsoft Ausfall von 25h vor einiger Zeit).

Für uns ist es daher wichtig, dass sich Probleme nicht wiederholen und gezielt Maßnahmen zu implementieren, welche die Ausfallzeiten durchgehend auf ein Minimum reduzieren und die Kommunikation mit Ihnen verbessern.

Ich bitte an dieser Stelle aufrichtig um Entschuldigung für die entstandenen Unannehmlichkeiten und bedanke mich für das entgegengebrachte Verständnis.

Mit freundlichen Grüßen
Cristian Mudure, CEO