23. Oktober 2025

Die AWS-Störung und was sie uns über das Risiko der Cloud-Konzentration verrät

Was passiert, wenn die Cloud selbst ausfällt?

In diesem Artiken erfahren Sie:

Warum die Dominanz von AWS, Azure und Google Cloud ein systemisches Risiko birgt
Wie Sie mit Multi-Cloud-Architekturen und Hybrid-Cloud-Modellen echte Resilienz aufbauen
Welche Compliance- und Datenschutzrisiken EU-Unternehmen im Blick behalten müssen (DSGVO, EU AI Act)
Welche praktischen Schritte Sie zur Risikominimierung und Ausfallsicherheit ergreifen sollten
Warum Ihre Cloud-Strategie heute immer auch eine Risikostrategie ist

Am 20. Oktober 2025 sahen Millionen von Nutzerinnen und Nutzern, wie ihre Lieblings-Apps plötzlich stillstanden. Es gab keinen Cyberangriff, keinen Sicherheitsvorfall – nur einen Infrastrukturausfall mit weitreichenden Folgen. Amazon Web Services (AWS) fiel aus, und Dienste von Snapchat bis Lloyds Bank waren betroffen. Trading-Apps wie Robinhood und Coinbase gingen offline. Selbst das britische Steuerportal kämpfte mit Problemen. Ein regionaler Ausfall in Virginia hatte weltweite Folgen.

Dieser Vorfall erinnert uns daran, dass unsere digitale Welt (einschließlich kritischer Infrastrukturen) von nur wenigen Cloud-Anbietern abhängt. Und wenn einer stolpert, spüren wir es alle.

Cloud-Zentralisierung: Ein systemisches Risiko

AWS, Azure und Google Cloud dominieren inzwischen den weltweiten Cloud-Computing-Markt – und betreiben alles von Streaming und sozialen Medien bis hin zu Bank- und Regierungsdiensten. Allein AWS unterstützt viele Fortune-500-Unternehmen. Diese Größenordnung bringt enorme Zuverlässigkeit, schafft aber auch einen einzigen potenziellen Ausfallpunkt.

Dieser Ausfall ist kein Einzelfall. Sowohl Azure als auch Google Cloud haben in den letzten Jahren größere Störungen erlebt. Diese Vorfälle machen eine unbequeme Wahrheit deutlich: „Die Cloud“ ist kein einheitlicher, sicherer Himmel, sondern drei riesige Plattformen – und alle können ausfallen.

Als Data Engineers bauen wir Pipelines, Orchestrierungssysteme und Data Warehouses mit Fokus auf Verfügbarkeit, Skalierbarkeit und Sicherheit. Doch auf Ausfälle auf Anbieterebene bereiten wir uns selten vor. In kritischen Infrastrukturen dürfen solche Risiken nicht ignoriert werden – sie müssen aktiv gemanagt werden.

Warum das für kritische Systeme wichtig ist

Wenn Infrastruktur ausfällt, reichen die Folgen weit über entgangene Umsätze hinaus. Im Finanzwesen bedeuten Ausfälle verpasste Trades, unterbrochene Audit-Trails und fehlgeschlagene Transaktionen – mit regulatorischen und reputationsbezogenen Kosten. Die BaFin und die EZB haben bereits vor dem Risiko der Cloud-Konzentration gewarnt, insbesondere bei kritischen Systemen. Dasselbe gilt für das Gesundheitswesen, öffentliche Dienste und den Transportsektor.

Für Organisationen, die kritische Infrastrukturen betreiben, lautet die Frage nicht, ob ein weiterer großer Ausfall eintreten wird, sondern ob ihre Systeme dann standhalten.

Resilienz aufbauen: Praktische Strategien

Die Lösung besteht nicht darin, Cloud-Plattformen aufzugeben, sondern sie zu diversifizieren. So geht’s:

Multi-Cloud-Architektur: Workloads auf mehrere Anbieter verteilen (z. B. AWS + Azure). Fällt einer aus, bleibt der andere verfügbar. Portable, containerisierte Infrastrukturen (Kubernetes, Terraform) machen dies praktikabel. Der operative Aufwand steigt, aber ebenso die Resilienz.
Hybrid Cloud: Kritische Systeme wie Ledger, Identitätsspeicher oder Audit-Logs lokal oder in einer souveränen Private Cloud betreiben. Die Public Cloud für weniger sensible Workloads nutzen. So behalten Sie die Kontrolle über Ihre wichtigsten Assets.
Regionale Redundanz: Auch innerhalb eines Anbieters über mehrere Regionen oder Availability Zones hinweg deployen. Viele Ausfälle sind regional und nicht global – geografische Verteilung ist daher eine wirksame erste Verteidigungslinie.
Vendor-Risikoprüfungen: Regulierungsbehörden erwarten inzwischen Cloud-Risikobewertungen. Behandeln Sie Ihren Cloud-Anbieter wie jeden anderen kritischen Drittanbieter – mit regelmäßigen Prüfungen und Notfallplänen.

Der notwendige Mentalitätswechsel für kritische Pipelines: Gehen Sie davon aus, dass alles ausfallen wird – und gestalten Sie Systeme so, dass Ihre Nutzer es nicht bemerken.

Besondere Überlegungen für EU-Organisationen

Für Organisationen in der EU geht Cloud-Resilienz über reine Verfügbarkeit hinaus. Es geht um Compliance und Datensouveränität.

Die DSGVO verlangt, dass personenbezogene Daten strengen rechtlichen und zugriffsbezogenen Kontrollen unterliegen. Eine US-basierte Cloud-Region mag SLA-Vorgaben zur Verfügbarkeit erfüllen, kann aber dennoch Fragen zur DSGVO oder zum EU-US Data Privacy Framework aufwerfen.

Der EU AI Act bringt eine weitere Komplexitätsebene. KI-Pipelines müssen transparent, prüfbar und nachvollziehbar sein. Das bedeutet: genau wissen, wo Trainingsdaten gespeichert sind, wer Zugriff hat und wie Ausfälle protokolliert werden. Auch wenn Systeme ausfallen, muss Ihre Compliance-Dokumentation Bestand haben.

Europäische Unternehmen müssen nicht nur für technische, sondern auch für regulatorische Resilienz planen. Multi-Cloud-Strategien sollten Anforderungen an die Datenresidenz berücksichtigen, und Failover-Verfahren müssen Audit-Trails über Regionen hinweg sicherstellen.

Cloud-Strategie ist Risikostrategie

Die Cloud bleibt eine beeindruckende Technologie. Sie ist zuverlässig, skalierbar und kosteneffizient. Sie wird nicht verschwinden. Aber blindes Vertrauen in wenige Anbieter darf es nicht geben.

Für Finanzwesen, Gesundheitswesen und andere kritische Sektoren ist Resilienz heute eine Anforderung an die Datenarchitektur – kein nachträglicher Gedanke. Der AWS-Ausfall im Oktober ist ein Weckruf. Überprüfen Sie Ihre Abhängigkeiten: Wie viele Ihrer Systeme hängen an einem einzigen Anbieter? Wie sähe Ihr Betrieb während eines 15-stündigen Ausfalls aus?

Es ist Zeit, Resilienz ernsthaft zu planen. Benötigen Sie Unterstützung bei der Bewertung Ihrer Cloud-Strategie und beim Aufbau einer Infrastruktur, die jedem Sturm standhält? Lassen Sie uns sprechen.

Quellen:

Day, Matt. “Amazon Says All Cloud Services Restored After 15-Hour Outage.” Bloomberg, 20 Oct. 2025.https://www.bloomberg.com/news/articles/2025-10-20/aws-suffers-service-disruption-with-thousands-reporting-issues. Abgerufen am 21 Okt. 2025.
Ghinea, Alexandru. “AWS Outage October 2025: A Comprehensive Breakdown.” FXRadar.live, 21 Oct. 2025.https://www.fxradar.live/market-news/aws-outage-october-2025-a-comprehensive-breakdown-of-the-glo.html. Abgerufen am 21 Okt. 2025.
Richter, Felix. “Worldwide Market Share of Leading Cloud Infrastructure Service Providers.” Statista, 21 Aug. 2025, www.statista.com/chart/18819/worldwide-market-share-of-leading-cloud-infrastructure-service-providers/. Abgerufen am 21 Okt. 2025.
“Complete Guide to GDPR Compliance.” GDPR.eu. Accessed 21 Oct. 2025.
“Einheitliche Regeln für Künstliche Intelligenz in der EU.” Bundesregierung.de, 6 May 2025.https://www.bundesregierung.de/breg-de/aktuelles/ai-act-2285944. Abgerufen am 21 Okt. 2025.

The AWS Outage and What It Tells Us About Cloud Concentration Risk

What Happens When the Cloud Itself Goes Down?

In this article, you'll learn:

Why the dominance of AWS, Azure, and Google Cloud represents a systemic risk
How multi-cloud and hybrid-cloud strategies can help build true resilience
What compliance and data protection challenges EU organizations must consider (GDPR, EU AI Act)
Which practical steps can reduce risk and strengthen operational continuity
Why your cloud strategy must now also be a risk strategy

On October 20, 2025, millions of users watched favorite apps grind to a halt. There was no cyberattack, no breach, just an infrastructure failure with far-reaching consequences. Amazon Web Services (AWS) went down, and services from Snapchat to Lloyds Bank were disrupted. Trading apps like Robinhood and Coinbase went dark. Even the UK tax portal struggled. One regional outage in Virginia rippled across the globe.

This incident reminds us that our digital world (including critical infrastructure) relies on just a few cloud providers. And when one stumbles, we all feel it.

Cloud Centralization: A Systemic Risk

AWS, Azure, and Google Cloud now dominate the global cloud computing market, powering everything from streaming and social media to banking and government services. AWS alone supports many Fortune 500 firms. That scale brings incredible reliability, but it also creates a single point of failure.

This outage isn't unique. Both Azure and Google Cloud have experienced major disruptions in recent years. These incidents reveal an uncomfortable truth: "the cloud" isn't one big safe sky but three massive platforms, and they can all fail.

As data engineers, we build pipelines, orchestration systems, and data warehouses with uptime, scalability, and security in mind. But we rarely prepare for a provider-level failure. In critical infrastructures, such risks can’t be ignored, they must be managed.

Why This Matters for Critical Systems

When infrastructure fails, the consequences extend far beyond lost revenue. In finance, downtime means missed trades, broken audit trails, and failed transactions, all carrying regulatory and reputational costs. BaFin and the ECP have already warned about cloud concentration risk, particularly for critical systems. The same logic applies to healthcare, public services, and transportation.

For organizations operating critical infrastructure, the question isn't whether another major outage will occur; it's whether your systems will stay standing when it does.

Building for Resilience: Practical Strategies

The solution isn't abandoning cloud platforms. It's diversifying them. Here's how:

Multi-Cloud Architecture: Split workloads across providers (e.g., AWS + Azure). If one fails, the other stays live. Use portable, containerized infrastructure (Kubernetes, Terraform) to make this practical. The operational complexity increases, but so does your resilience.
Hybrid Cloud: Keep critical systems, like ledgers, identity stores, audit logs, etc., on-premise or in a sovereign private cloud. Use public cloud for less sensitive workloads. This approach gives you control over your most vital assets.
Regional Redundancy: Even within a single provider, deploy across multiple regions or availability zones. Many outages are regional rather than global, making geographic distribution an effective first line of defense.
Vendor Risk Audits: Regulators now expect cloud-risk assessments. Treat your cloud provider like any other critical third-party vendor, with regular reviews and contingency plans.

The mindset shift for critical pipelines: assume everything will fail, and design so your users never notice.

Special Considerations for EU Organizations

For organizations operating in the EU, cloud resilience extends beyond uptime. It's about compliance and data sovereignty.

GDPR requires that personal data remain under strict jurisdictional and access controls. A US-based cloud region may technically meet uptime SLAs but could still pose compliance questions under GDPR or the EU-US Data Privacy Framework.

The EU AI Act adds another layer of complexity. AI pipelines must be transparent, auditable, and traceable. That means knowing exactly where your training data lives, who can access it, and how failures are logged. When systems go down, your compliance documentation must still hold up.

European businesses must design not only for technical resilience but for regulatory resilience. Multi-cloud strategies should factor in data residency requirements, and failover procedures must maintain audit trails across regions.

Cloud Strategy as Risk Strategy

The cloud remains an incredible technology. It's reliable, scalable, and cost-efficient. It's not going away. But blind trust in a few providers must.

For finance, healthcare, and other critical sectors, resilience is now a data-architecture requirement, not an afterthought. The October AWS outage is a wake-up call. Review your dependency graph. How many of your systems hinge on a single provider? How would your operations look during a 15-hour outage?

It's time to think seriously about resilience. Need help assessing your cloud strategy and building infrastructure that can weather any storm? Let's talk.

Sources:

Day, Matt. “Amazon Says All Cloud Services Restored After 15-Hour Outage.” Bloomberg, 20 Oct. 2025.https://www.bloomberg.com/news/articles/2025-10-20/aws-suffers-service-disruption-with-thousands-reporting-issues. Accessed 21 Oct. 2025.
Ghinea, Alexandru. “AWS Outage October 2025: A Comprehensive Breakdown.” FXRadar.live, 21 Oct. 2025.https://www.fxradar.live/market-news/aws-outage-october-2025-a-comprehensive-breakdown-of-the-glo.html. Accessed 21 Oct. 2025.
Richter, Felix. “Worldwide Market Share of Leading Cloud Infrastructure Service Providers.” Statista, 21 Aug. 2025, www.statista.com/chart/18819/worldwide-market-share-of-leading-cloud-infrastructure-service-providers/. Accessed 21 Oct. 2025.
“Complete Guide to GDPR Compliance.” GDPR.eu. Accessed 21 Oct. 2025.
“Einheitliche Regeln für Künstliche Intelligenz in der EU.” Bundesregierung.de, 6 May 2025.https://www.bundesregierung.de/breg-de/aktuelles/ai-act-2285944. Accessed 21 Oct. 2025.

Tags: #DataEngineering, #CloudComputing, #CloudResilience, #MultiCloud, #ResilientSystems, #TechResilience, #CloudResilienz, #CloudStrategie

Kommentar schreiben

Kommentare: 0