Datenvertrauen ist nicht verhandelbar: Warum Datenqualität die wichtigste Mission des Data Engineer ist

Das unerschütterliche Fundament des Datenvertrauens

In unserem vorherigen Blogbeitrag haben wir diskutiert, wie Daten-Silos und Qualitätsprobleme in Unternehmen trotz Investitionen in Milliardenhöhe in die Datenmodernisierung weiterhin vorherrschen. Wir treten nun in die KI-Ära ein, in der die nächste Phase des Analytics Engineering durch künstliche Intelligenz transformiert wird. Doch selbst wenn Unternehmen KI in ihren Tools und Workflows einsetzen, bleibt das Vertrauen in Daten die Grundlage für den Erfolg. Dieses Vertrauen aufzubauen, ist weiterhin die oberste Priorität für Datenteams.

Datenqualität (DQ) bleibt die kritischste Herausforderung, die Datenteams lösen müssen. Data Engineers und Analytics Engineers spielen eine besonders wichtige Rolle bei der Bewältigung dieser Probleme, da sie diejenigen sind, die neue Pipelines erstellen. Eine schlechte Datenqualität gefährdet das Vertrauen, die Qualität von Entscheidungen und behindert die Effektivität von Datenteams erheblich.

In diesem Beitrag tauchen wir tief ein in die Definition dessen, was Datenqualität bedeutet, wie wir sie messen, und warum diese Herausforderung letztendlich organisatorischer Natur ist und technische Lösungen erfordert.

Definition von Datenqualität: Zweckmäßigkeit („Fit for Purpose“)

Datenqualität (DQ) bezieht sich auf den Zustand von qualitativen oder quantitativen Informationen. Daten gelten im Allgemeinen als hochwertig, wenn sie „für ihre beabsichtigten Verwendungszwecke in Betriebsabläufen, Entscheidungsfindung und Planung geeignet“ sind.

Die Definition von DQ ist schwierig aufgrund der vielen Kontexte, in denen Daten verwendet werden, sowie der unterschiedlichen Perspektiven von Endnutzern, Produzenten und Verwaltern der Daten. Im Allgemeinen beinhaltet sie den Vergleich des tatsächlichen Zustands der Daten mit einem gewünschten Zustand, oft beschrieben als „den Spezifikationen entsprechend“ oder „die Erwartungen der Verbraucher erfüllend“.

Dieses Konzept wird oft mit der Geschäftslogik verglichen. DQ-Prüfungen sind ein Nischenbereich, der die Data Governance unterstützt, indem er Lücken schließt und Ausnahmen findet. Allerdings sind DQ-Prüfungen redundant, wenn die Geschäftslogik bereits dieselbe Funktionalität abdeckt und denselben Zweck erfüllt.

Die Dimensionen der Datenqualität: Schlüsselmetriken für die Messung

„Eignung für den Gebrauch“ wird durch spezifische Merkmale oder Dimensionen der Daten definiert. Diese Dimensionen dienen als die Schlüsselmetriken, die Data Engineers verfolgen und messen:

Data Quality Dimension(Metric)	Definition/Context
Genauigkeit/Korrektheit	Daten müssen das reale Konstrukt korrekt darstellen. Genauigkeitsprüfungen sind wichtig bei Drittanbieter-Daten.
Vollständigkeit/Umfassendheit	Erforderliche Daten müssen vorhanden sein und Prüfungen erfolgen am Eingabepunkt.
Konsistenz/Kohärenz	Datenkonsistenz über Teams und Systeme hinweg ist wichtig, besonders für Stammdaten.
Aktualität/Latenz	Prüfung der Datenverfügbarkeit und -aktualität zur Optimierung von Datenwertverfall und Bewegung
Gültigkeit/Plausibilität	Daten müssen Formatregeln und Standards entsprechen, Gültigkeitsprüfungen gewährleisten Übereinstimmung mit definierten Werten.
Andere unterstützende Dimensionen	Weitere Merkmale sind Zugänglichkeit, Vergleichbarkeit, Glaubwürdigkeit, Flexibilität, Plausibilität, Relevanz und Einzigartigkeit.

Die organisatorische Bedeutung für den Data Engineer

Schlechte Datenqualität ist weiterhin die am häufigsten gemeldete Herausforderung von Datenteams. Die geschätzten Gesamtkosten von Datenqualitätsproblemen für die US-Wirtschaft wurden auf über 600 Milliarden US-Dollar pro Jahr geschätzt [4].

Die Zeitfalle: Datenpraktiker berichten, dass sie 57 % ihrer Arbeitstage mit der Wartung oder Organisation von Datensätzen verbringen. Diese Wartungsbelastung behindert die Effektivität des Teams erheblich [13].
Das KI-Risiko: Bei Anwendungen, die KI-Training und die Verarbeitung natürlicher Sprache umfassen, bedeuten unzuverlässige Daten unzuverlässige Ergebnisse. Die Schwierigkeit, konsistent genaue Datenberichte mit KI zu erstellen, ist wahrscheinlich ein Faktor, der die Akzeptanz begrenzt.
Der regulatorische Imperativ: Datenqualität ist eine geschäftliche Notwendigkeit, nicht nur eine technische. Sie ist eine kritische Fähigkeit in stark regulierten Branchen wie Finanzdienstleistungen (15 % der Community) und Gesundheitswesen/Biowissenschaften (10 % der Community). Das Ziel ist es, Probleme zu identifizieren und zu beheben, bevor sie zu Prüfungsfeststellungen oder regulatorischen Strafen führen [13].
Organisatorische Brüche: Datenqualitätsprobleme entstehen, weil Teams Daten unabhängig extrahieren und transformieren, was zu einer fragmentierten Sicht auf das Unternehmen führt. Die Verbreitung von mehrdeutigen Daten und einer geringen Datenkompetenz der Stakeholder deutet darauf hin, dass die Herausforderung oft organisatorischer, nicht nur technischer Natur ist. Daher müssen Datenprobleme als organisatorische Probleme behandelt werden, die technische Lösungen erfordern.

Strategische Ansätze: Wie man die Datenqualität verbessert

Die Investitionen zur Behebung dieser Probleme steigen stark an: Datenqualität/Observability war der zweitgrößte Bereich für erhöhte Investitionen, wobei 38 % der Befragten planen, die Tool-Investitionen in den nächsten 12 Monaten zu erhöhen. Es wird auch erwartet, dass KI der Datenqualität erheblich zugutekommt, und zwar durch proaktives Daten-Monitoring (von 50 % der Befragten genannt) [13].

Um den Fokus von der ständigen Wartung (57 % der aufgewendeten Zeit) auf strategische Lösungen zu verlagern, müssen Organisationen:

Federated Ownership (Verteilte Verantwortung) annehmen: Das zentralisierte Modell des „einzelnen Data-Warehouse-Teams“ versagt in komplexen Institutionen. Stattdessen erfordert Erfolg verteilte Verantwortung. Geschäftsbereiche sollten ihre Datenqualität verantworten, die IT stellt die Integrationsplattform bereit und eine leichte Governance-Funktion legt Standards fest und löst Konflikte.
Systematische Tool-Nutzung implementieren:

Data Profiling (Datenprofilierung): Anfängliche Bewertung der Daten, um ihren aktuellen Zustand und die Werteverteilungen zu verstehen.
Data Quality Assurance (DQA): Der Prozess der Profilierung, um Inkonsistenzen und Anomalien zu entdecken, und der Durchführung von Datenbereinigung (z. B. Entfernen von Ausreißern, Standardisierung, Interpolation) zur Verbesserung der DQ.
Matching oder Linking: Verwendung von Fuzzy Logic zum Vergleich von Daten, damit ähnliche, aber leicht unterschiedliche Datensätze abgeglichen werden können, wobei oft ein „Best-of-Breed“-Datensatz aus mehreren Datenquellen erstellt wird.
Monitoring (Überwachung): Verfolgen der Datenqualität im Laufe der Zeit und Berichten von Abweichungen, wobei die Software möglicherweise automatisch auf der Grundlage vordefinierter Geschäftsregeln korrigiert.

Fazit: Der Weg zur regulatorischen Bereitschaft

Datenqualität ist der Motor für die Entscheidungsfindung und die KI-Ergebnisse, und ihre Zuverlässigkeit ist nicht verhandelbar. Der Weg nach vorne erfordert, dass KI und menschliches Fachwissen Hand in Hand arbeiten. Unternehmen müssen proaktiv ihre Datenstrategie definieren, sich auf Effizienz konzentrieren und gleichzeitig die Governance priorisieren. Schlechte Datenqualität ist nicht nur ein technischer Fehler; es ist eine Schwachstelle, die ein Unternehmen erheblichen Risiken aussetzen kann.

Sind Sie wirklich auf Erfolg eingestellt, oder verlassen Sie sich immer noch auf manuelle, reaktive Maßnahmen?

Um Ihnen bei der Bewertung Ihrer organisatorischen und technischen Reife zu helfen, haben wir eine umfassende Checkliste entwickelt, die die kritischen Bereiche abdeckt, die Sie beherrschen müssen, bevor Sie ein regulatorisches Datenprojekt mit hohem Risiko beginnen. Die Checkliste bewertet die Bereitschaft in fünf kritischen Bereichen.

Laden Sie die Checkliste noch heute herunter, um zu sehen, ob Ihr Unternehmen die Grundlagen geschaffen hat, und nutzen Sie sie, um Probleme zu identifizieren und zu beheben, bevor sie zu Prüfungsfeststellungen oder regulatorischen Strafen führen. Sie können sie hier kostenlos herunterladen.

Data Trust is Non-Negotiable: Why Data Quality is the Data Engineer's Most Critical Mission

The Unshakeable Foundation of Data Trust

In our previous blog post, we discussed how data silos and quality problems remain prevalent in organizations despite billions invested in data modernization. We are now entering the AI era, where the next phase of analytics engineering will be transformed by artificial intelligence. However, even as organizations embrace AI in their tools and workflows, trust in data remains the foundation of success. Building this trust is still the top priority for data teams.

Data quality (DQ) remains the most critical challenge for data teams to solve. Data Engineers and Analytics Engineers have an especially important role in managing these issues as they are the ones creating new pipelines. Poor data quality compromises trust, decision quality, and severely hinders the effectiveness of data teams.

In this post, we dive deep into defining what data quality means, how we measure it, and why this challenge is ultimately organizational, requiring technical solutions.

Defining Data Quality: Fit for Purpose

Data Quality (DQ) refers to the state of qualitative or quantitative pieces of information. Data is generally considered high quality if it is "fit for its intended uses in operations, decision making and planning".

Defining DQ is difficult due to the many contexts data are used in, as well as the varying perspectives among end users, producers, and custodians of data. Generally, it involves comparing the data's actual state to a desired state, often described as "to specification" or "meeting consumer expectations".

This concept is often compared to business logic. DQ checks are a niche area that aids data governance by covering gaps and finding exceptions. However, DQ checks are redundant if the business logic already covers the same functionality and fulfills the same purpose.

The Dimensions of Data Quality: Key Metrics for Measurement

"Fitness for use" is defined by specific characteristics or dimensions of the data. These dimensions serve as the key metrics that data engineers track and measure:

Data Quality Dimension(Metric)	Definition/Context
Accuracy/Correctness	Accuracy checks ensure data represents real-world construct, especially when sourced externally.
Completeness/Comprehensiveness	Ensuring all required data is present. Checks may be performed at the point of entry for each mandatory attribute.
Consistency/Coherence	Data is not inconsistent across different teams or systems. Consistency checks are essential for data columns referring to Master Data.
Timeliness/Latency	Data currency and availability impact data value decay and movement policies.
Validity/Reasonableness	Data validity checks ensure data adheres to format rules and aligns with valid values.
Other Supporting Dimensions	Essential characteristics include accessibility, comparability, credibility, flexibility, plausibility, relevance, and uniqueness.

The Organizational Importance for the Data Engineer

Poor data quality continues to be the challenge most frequently reported by data teams. The estimated total cost to the U.S. economy of data quality problems was estimated at over $600 billion per annum[4].

The Time Sink: Data practitioners report spending 57% of their workdays maintaining or organizing data sets. This maintenance load severely hinders the effectiveness of the team.[13]
The AI Risk: In applications involving AI training and natural language consumption, unreliable data means unreliable outputs. The difficulty of generating consistently accurate data reporting with AI is a likely factor limiting adoption.
The Regulatory Imperative: Data quality is a business imperative, not just a technical necessity. It is a critical capability in heavily regulated industries such as financial services (15% of the community) and healthcare/life sciences (10% of the community). The goal is to identify and resolve issues before they become audit findings or regulatory penalties.[13]
Organizational Fractures: Data quality issues arise from teams independently extracting and transforming data, leading to a fragmented enterprise view. The prevalence of ambiguous data and poor stakeholder data literacy suggests the challenge is often organizational, not just technical. Therefore, data issues must be treated as organizational problems requiring technical solutions.

Strategic Approaches: How to Improve Data Quality

Investment in fixing these problems is surging: Data quality/observability was the second-largest area for increased investment, with 38% of respondents planning to increase tooling investment in the next 12 months. AI is also expected to significantly benefit data quality through proactive data monitoring (cited by 50% of respondents).[13]

To shift focus from constant maintenance (57% of time spent) to strategic solutions, organizations must:

Embrace Federated Ownership: The centralized "single data warehouse team" model fails in complex institutions. Instead, success requires federated ownership. Business domains should own their data quality, IT provides the integration platform, and a lightweight governance function sets standards and resolves conflicts.
Implement Systematic Tooling:

Data Profiling: Initially assessing the data to understand its current state and value distributions.
Data Quality Assurance (DQA): The process of profiling to discover inconsistencies and anomalies, and performing data cleansing (e.g., removing outliers, standardization, interpolation) to improve DQ.
Matching or Linking: Using fuzzy logic to compare data so that similar, but slightly different records can be aligned, often building a "best of breed" record from multiple data sources.
Monitoring: Keeping track of data quality over time and reporting variations, with software potentially auto-correcting based on predefined business rules.

Conclusion: The Path to Regulatory Readiness

Data quality is the engine driving decision-making and AI output, and its reliability is non-negotiable. The path forward requires AI and human expertise working in tandem. Organizations must be proactive in defining their data strategy, focusing on efficiencies while prioritizing governance. Poor data quality is not just a technical flaw; it’s a vulnerability that can expose an organization to significant risk.

Are you truly set up for success, or are you still relying on manual reactive measures?

To help you assess your organizational and technical maturity, we have developed a comprehensive checklist covering the critical areas you must master before starting a high-stakes regulatory data project. The checklist assesses readiness across five critical areas.

Download the checklist today to see if your organization has established the foundations and use it to identify and resolve issues before they lead to audit findings or regulatory penalties. You can download it for free here.

Quellen/Sources

[1] A. Tavakoli, Holger Harreis, Kayvaun Rowshankish, and S. Reddin, “BCBS 239 2.0 resurgence: Strengthening risk management and decision making,” McKinsey & Company, Dec. 06, 2024. https://www.mckinsey.com/capabilities/risk-and-resilience/our-insights/bcbs-239-2-0-resurgence-strengthening-risk-management-and-decision-making
[2] “Deloitte, BCBS 239: Achieving Compliance and Enhancing Risk Data Aggregation and Reporting,” 2017. Available: https://www2.deloitte.com/content/dam/Deloitte/ie/Documents/Risk/ie-risk-Deloitte-BCBS-239-Article-2017.pdf
[3] O. Team, “BCBS 239 Compliance Through Practical Data Governance Use Cases,” Ovaledge.com, Apr. 22, 2025. https://www.ovaledge.com/blog/bcbs-239-compliance-via-data-governance
[4] Wikipedia Contributors, “Data mesh,” Wikipedia, Mar. 07, 2025. https://en.wikipedia.org/wiki/Data_mesh
[5] R. K. Kanji, “Federated Data Governance Framework for Ensuring Quality-Assured Data Sharing and Integration in Hybrid Cloud-Based Data Warehouse Ecosystems through Advanced ETL/ELT Techniques,” International Journal of Computer Techniques, 2021. Accessed: 2025. [Online]. Available: https://ijctjournal.org/wp-content/uploads/2025/06/Federated-Data-Governance-Framework-for-Hybrid-Cloud-Based-Data-Warehouse-Ecosystems.pdf
[6] “Data Mesh: Definition, Importance, Key Principles, and Benefits,” Denodo, 2025. https://www.denodo.com/en/glossary/data-mesh-definition-importance-principles-benefits (accessed Nov. 26, 2025).
[7] J. Caserta, J.-B. Dubois, M. Roggendorf, N. Srinidhi, and M. Roth, “Demystifying data mesh | McKinsey,” www.mckinsey.com, Jun. 08, 2023. https://www.mckinsey.com/capabilities/quantumblack/our-insights/demystifying-data-mesh
[8] T. van Eijk, I. Kumara, D. Di Nucci, D. A. Tamburri, and W.-J. van den Heuvel, “Architectural Design Decisions for Self-Serve Data Platforms in Data Meshes,” arXiv.org, 2024. https://arxiv.org/abs/2402.04681
[9] N. Dulam, K. Reddy Gade, and V. Gosukonda, “Data Mesh and Data Governance: Finding the Balance,” Journal of AI-Assisted Scientific Discovery, Dec. 1AD. Available: https://www.scienceacadpress.com/index.php/jaasd/article/view/230
[10] S. Nguyen, “Data Management and the Four Principles of Data Mesh,” Dreamfactory.com, Oct. 2024. https://blog.dreamfactory.com/data-management-and-the-four-principles-of-data-mesh (accessed Nov. 26, 2025).
[11] Financial IT, “Why Banks Need Powerful, Agile Data Preparation Solutions for Accurate and Timely Regulatory Reporting,” Financial IT, 2025. https://financialit.net/news/banking/why-banks-need-powerful-agile-data-preparation-solutions-accurate-and-timely-0 (accessed Nov. 26, 2025).
[12] J. Bode, N. Kühl, D. Kreuzberger, S. Hirschl, and C. Holtmann, “Data Mesh: Best Practices to Avoid the Data Mess,” Jun. 2024. Accessed: Nov. 26, 2025. [Online]. Available: https://arxiv.org/pdf/2302.01713
[13] dbt Labs, “2025 State of Analytics .” Available: https://www.getdbt.com/resources/state-of-analytics-engineering-2025