Im Datenmanagement ist einer der elementaren Begriffe, der der Datenqualität. Beispiele für schlechte Datenqualität kennt und erlebt jeder:
Auch die Auswirkungen schlechter Datenqualität in Unternehmen sind bekannt:
Aber die Definition der Datenqualität fällt uns dennoch schwer.
In diesem Beitrag beleuchten wir den Begriff aus sprachlicher Sicht, um einmal einen anderen Blickwinkel als das allgemein genutzte „fit for purpose“ zu geben.
Beginnen wir damit, die einzelnen Teile des Begriffs Datenqualität zu betrachten
Die ISO 9000 definiert Qualität als
Grad, in dem eine Reihe von inhärenten Merkmalen eines Objekts die Anforderungen erfüllt
Anmerkung 1 zum Eintrag: Der Begriff „Qualität“ kann mit Adjektiven wie schlecht, gut oder ausgezeichnet verwendet werden.
Anmerkung 2 zum Eintrag: „Inhärent“ bedeutet, im Gegensatz zu „zugewiesen“, im Objekt vorhanden.
Der Wikipedia-Eintrag basiert auf der Übersetzung des lateinischen Begriffs Qualitas als Beschaffenheit / Eigenschaft:
Qualität ist definiert als „Gesamtheit der charakteristischen Eigenschaften (einer Sache, Person); Beschaffenheit“. Wikipedia beschreibt Qualität:
neutral: die Summe aller Eigenschaften eines Objekts, Systems oder Prozesses
bewertet: die Güte aller Eigenschaften eines Objekts, Systems oder Prozesses
Der Begriff Daten ist der Plural des Begriffs Datum. Umgangssprachlich wird das Konzept des Datums mit dem Konzept des Fakts gleichgesetzt, dem ist aber nicht ganz so: Fakten bauen auf Daten auf.
Daten und englisch data gehen beide auf das lateinische Verb dare – geben zurück. Ein Datum/Daten beschreiben etwas Gegebenes.
Daten sind exakte Erfassungen von Gegenständen, Aktionen, Ereignissen oder Konzepten der realen Welt.
Der Fokus liegt auf dem Erfassen – nicht dem Bewerten des Erfassten
Fakt kommt vom lateinischen Factum und bedeutet „etwas Gemachtes“. Ein Fakt ist definiert als ein als wahr anerkannter Sachverhalt – der sich aus interpretierten Daten zusammensetzt. Daniel Rosenstein hat dies 2012 in seinen Aufsatz data before the fact als ‚Daten sind Pre-Fakten‘ (“data” means that which is given prior to argument.) beschrieben.
Daten und Fakten sind also nicht dasselbe – wenn ein Fakt widerlegt wird, ist er kein Fakt mehr; wenn Daten widerlegt werden, sind es aber immer doch Daten (wenn auch keine exakte Wiedergabe der Wirklichkeit mehr).
Neutral betrachtet beschreibt die Datenqualität die – wertfreie – Eigenschaft von Daten. Hier hat sich der Begriff der Datendimension etabliert. Die Eigenschaft der Daten wird aus verschiedenen Blickwinkeln, wie Genauigkeit, Aktualität, Konformität, etc. betrachtet.
Auch hier eine ISO – Definition aus der ISO/IEC 2382-36:2019(en):
Datenqualität
eine Reihe von Merkmalen wie Relevanz, Genauigkeit, Aktualität, Pünktlichkeit, Zugänglichkeit (3.8.3), Klarheit, Vergleichbarkeit und Kohärenz, die die Erhebung, Analyse, Aufbewahrung, Verbreitung und Verwendung von Daten betreffen
Viel häufiger verbindet man mit dem Begriff der Datenqualität aber die Güte der Daten: „Wie zweckdienlich sind die Daten?“ – Kann ich sie nutzen, oder sind sie fehlerhaft, zu alt, unvollständig, etc.
ISO 8000-2:2022(en)
Datenqualität
Grad, in dem ein Satz inhärenter Merkmale von Daten (3.2.2) die Anforderungen (3.1.2) erfüllt
Zur Bestimmung der Güte muss festgelegt sein, wie die Daten denn aussehen sollten – nur dann kann man die Abweichung (Datenqualität) bestimmen.
In prozessgetriebenen Unternehmen wird der Sollzustand, die Anforderung, in Geschäftsprozess- und Geschäftsregeln festgelegt (die nicht immer schriftlich niedergelegt sind).
Einfache Beispiele:
Die Überwachung dieser Geschäftsregeln wird man aktiv managen, d. h. die Überprüfung findet vor oder mit der Ausführung statt. Bei komplexeren oder nicht zeitkritischen Sachverhalten greift man zum Datenqualitätsmonitoring, d. h. man vergleicht die gespeicherten Daten mit den erwarteten und betrachtet die Abweichungen.
Unsere Methodik des prozessorientierten Datenmanagements setzt genau hier an, in dem die Geschäftsobjekte, Attribute, deren korrespondierenden Datenelemente und Regeln extrahiert und dokumentiert werden, um daraus bewertbare Anforderungen abzuleiten.
Mehr zu diesem Thema finden sie im prozessorientierten Datenmanagement.