DATA%20CONSULTING%20LOGO
AdobeStock_218913222.jpeg

Was ist ein Datenkatalog und warum wird er in einem Datenmanagementprojekt benötigt?

There are known knowns; there are things we know we know.
We also know there are known unknowns; that is to say we know there are some things we do not know.
But there are also unknown unknowns — the ones we don’t know we don’t know.

Donald Rumsfeld

In der Kurzfassung ist ein Datenkatalog eine Bestandsliste der digitalen Wertgegenstände eines Unternehmens; wenn man Daten als Vermögenswert betrachtet.

Die lange Fassung:

„Ein Datenkatalog ist eine Sammlung von Informationen über die Daten, die in einem System oder einer Organisation gespeichert sind. Er dient als zentraler Ort, an dem Benutzer die verfügbaren Daten suchen, finden und verstehen können. Ein Datenkatalog kann insbesondere eine Liste von Datenbanktabellen, Datenfeldern und Datensätzen enthalten sowie Informationen über die Datenqualität, Datenzugriffsrechte und Datenverwendungszwecke bereitstellen.“

Warum benötigt ein Unternehmen einen Datenkatalog?

Ein Datenkatalog unterstützt bei der Einhaltung von rechtlichen Anforderungen wie dem Datenschutz, in dem er alle Datenquellen, die persönlich identifizierbare Informationen (PII) enthalten, kennt und damit weiß, wo man zur Umsetzung der Betroffenenrechte, z. B. Auskunft- oder Löschforderungen, hinsehen muss.

Ein Datenkatalog erhöht die Sicherheit von Aussagen und Entscheidungen, indem er sicherstellt, dass alle Benutzer auf die gleichen Daten zugreifen und dass diese korrekt und konsistent verwendet werden.

Ein Datenkatalog beschleunigt die Ausführung von Geschäftsprozessen, in dem er erlaubt, dass Benutzer schneller und effizienter auf die benötigten Daten zugreifen können.

Und ein gut strukturierter Datenkatalog ist die Grundlage für alle Datenqualitätsprojekte in einem Unternehmen. Er ist die Brücke zwischen Fachbereich und IT, in dem er die fachlichen Forderungen mit den technischen Umsetzungen verbindet. Er erlaubt neben den

  • fachlichen Sichtweisen „Welche Informationsobjekte sind gespeichert?“, „Wie heißen sie?“,
  • technischen Sichtweisen „Wo stehen die Daten?“, „Wie ist der Zusammenhang zwischen den Daten?“

auch die Sichtweisen des Datenmanagements:

  • Datenqualität: Wie alt sind die Daten? Wie vollständig?
  • Data Governance: Wer ist für ein Informationsobjekt zuständig? Wer hat die Pflegeverantwortung, wer pflegt es?
  • Data Lineage: Wo kommen die Daten her? Wie wurden die Daten verändert?
  • Metadatenmanagement: Wie sieht der Kontext der Daten aus? Wie unterstützen die Daten unsere Geschäftsprozesse? Wie sind die Daten zu verwenden?
  • Business Glossary: Haben wir alle dasselbe Verständnis eines Informationsobjektes?
  • Datenarchitektur: Wie sehen unsere konzeptuellen, logischen oder physischen Datenmodelle aus?
  • Datenschutz: Welche personenbezogenen Daten sind wo gespeichert? Wer hat Zugriff auf personenbezogene Daten?

Damit ist der Datenkatalog ein zentraler Bestandteil jeder Datenmanagementarchitektur.

Datenkatalog, Data Dictionary oder gleich Metadatenmanagement?

Metadatenmanagement und Datenkatalog sind zwei eng miteinander verbundene Konzepte, die jedoch unterschiedliche Funktionen erfüllen.

Metadaten sind Informationen über Daten, die beschreiben, wie sie strukturiert, organisiert und verwendet werden können. Metadaten stellen Daten in einen Kontext und dokumentieren so den Nutzungszweck. Das Metadatenmanagement beantwortet Fragen wie;

  • Wer darf wann wie auf die Daten zugreifen?
  • In welcher Qualität (Vollständigkeit, Aktualität …) müssen die Daten vorhanden sein, damit ein Geschäftsprozess durchgeführt werden kann?
  • Welche Regeln gelten für die Daten, damit eine Aufgabe korrekt durchgeführt werden kann?

Ein Datenkatalog im engeren Sinne ist damit eine spezielle Art von Metadatenmanagement-System, das eine organisierte Sammlung von Informationen über die Daten bereitstellt. Ein Datenkatalog enthält in der Regel eine Liste von verfügbaren Datenquellen, Datensätzen, Tabellen, Feldern und anderen relevanten Informationen, wie Datenqualität und Zugriffsrechte. Er beschreibt u. a.:

  • Wo stehen die Daten?
  • Wie werden die Daten transformiert?
  • Wie alt sind die Daten?
  • Welche Datenqualität haben die Daten?

Insgesamt kann man sagen, dass Metadatenmanagement ein übergeordneter Begriff ist, der sich auf die Verwaltung aller Arten von Metadaten bezieht, während ein Datenkatalog ein spezialisierter Metadatenservice ist, der sich auf die Verwaltung von Informationen über Datenquellen und Datensätze konzentriert.

Welche Funktionen und Fähigkeiten bieten Datenkataloge?

Ein Datenkatalog oder älter Data Dictionary im engeren Sinn ist ein Werkzeug, um Datenmodelle und deren Bedeutung zu dokumentieren. Der Fokus liegt auf der Bereitstellung von möglichst vielen Adaptern für Datenbanken und Applikationen, um die Datenstruktur der Unternehmensdatenquellen zu importieren und dann in einem zweiten Schritt in einem Business Glossary zu beschreiben. Weitere Funktionen, wie das Benennen von Verantwortlichen, eine Kernfunktion der Data Governance, oder das Attributieren von Datenelementen, z. B. als Datenschutz-relevant, gehören ebenfalls zu den Grundfunktionalitäten.

Das Analystenhaus Gartner hat, anders als seine Mitbewerber, von vornherein die Fähigkeiten des Datenkatalogs als Metadaten Management bezeichnet. Bis Mitte 2022 gab es den Enterprise Metadata Management (EMM) Magic Quadrant und seit Ende 2022 wird er als Active Metadata Management vertrieben. Neben den bekannten Fähigkeiten fordert Gartner:

  • Data lineage — die Datenherkunft, die Datenverteilung und Veränderungen, die an den Daten vorgenommen werden. Data Lineage ist wichtig für die Auswertungen und Analysen, um nachzuvollziehen, dass die Daten korrekt sind.
  • Impact analysis — die Folgenabschätzung zeigt die Abhängigkeiten von Datenstrukturen untereinander und hilft dabei Veränderungen und Auswirkungen zu bewerten, wenn Strukturen sich ändern sollten.
  • Rules management — über die Dokumentation von Geschäfts-, Geschäftsprozess- und Datenqualitätsregeln haben wir eine ganze Serie von Beiträgen geschrieben.
  • Semantic Frameworks — Unterstützung für Taxonomien, Entity-Relationship-Modelle (ER) und Ontologie- und Modellierungssprachen wie das Resource Description Framework (RDF), die Web Ontology Language (OWL) und die Unified Modeling Language (UML).

Wichtig bei der Einführung eines Metadatenmanagements oder eines Datenkatalogs ist, dass man ein Operationsmodell benötigt. Eine reine IT-Tool-Einführung, bei der die bestehenden Datenbanken in eine neue Datenbank geladen werden, führt nur zu einem weiteren Datengrab.