Was ist ein Data Warehouse?

Foto: globalperson/Shutterstock

DWH – Single Source of Truth


Das Data Warehouse ist das zentrale System, welches zu Analysezwecken im Unternehmen eingesetzt wird. Dessen Prozesse extrahieren, sammeln und sichern relevante Daten aus strukturierten oder unstrukturierten Datenquellen. Zudem werden nachgelagerte Systeme mit aufbereitete Informationen versorgt.

Ein Data Warehouse ist themenorientiert aufgebaut und basiert auf den wichtigsten Fakten eines Unternehmens (Kunden, Marketing, Lieferanten, usw.). Dadurch haben Entscheider die Möglichkeit, Unternehmensdaten aus verschiedenen Perspektiven zu betrachten.

Daten stammen aus unterschiedlichen, heterogenen Datenquellen, hierin sind Datenredundanzen und damit verbundene Inkonsistenzen kaum vermeidbar. Um ein konsistentes Datenmanagement in einem Data Warehouse zu ermöglichen, müssen daher diese Strukturen aufgebrochen und standardisiert bzw. normalisiert werden.

In Ihren Produktivsystemen werden meist aktuell gültigen Daten gespeichert. D.h. es werden permanent neue Daten hinzugefügt, bestehende Daten verändert und ggf. auch gelöscht. Im Gegensatz dazu werden die Daten in einem Data Warehouse historisiert und/ oder versioniert, sodass jeder gültige Zustand zu jedem Zeitpunkt abrufbar ist.

Oftmals geht mit dem Begriff Data Warehouse auch der Begriff Business Intelligence (auch „BI“) einher. Dabei bildet das Data Warehouse vielmehr die Grundlage für eine solide BI. Ist diese Grundlage geschaffen, sind Sie erst in der Lage auf geprüfte und konsistente Daten zurückzugreifen. Schlussfolgernd können Sie auch erst dann sichere Aussagen über die Geschäftsentwicklung tätigen und haben die Sicherheit über die Richtigkeit Ihrer Kennzahlen.

Häufig vertrauen unsere Kunden im ersten Moment auf die von dem implementierten System zur Verfügung gestellten Kennzahlen. Sobald Sie sich aber die Zusammenhänge genauer ansehen, sind Sie überrascht, dass es doch sehr unlogische Konstellationen gibt.

 

Wie schafft ein DWH diese Konsistenz herzustellen?


Das DWH muss technisch vielmehr als ein ganzheitlicher Datenverarbeitungsprozess gesehen werden. Viele verstehen darunter lediglich einen Ort der Datenhaltung. Diese Betrachtungsweise ist aber falsch, da das Vorgehen mehrstufig stattfindet. Dabei kann man linear betrachtet von einer Datenbeschaffung, Datenhaltung, Datenversorgung und Datenvisualisierung sprechen.

Datenbeschaffung


Bei der Datenbeschaffung sprechen wir in der Regel über den ETL (Extrahieren, Transformieren, Laden).  Es beschreibt einen Prozess, welcher aus mehreren Einzelschritten besteht. Dabei werden Daten aus verschiedenen Quellen in ein Data Warehouse integriert. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.

Schritt 1 ist die Extraktion der Daten aus dem Quellsystem. Dabei werden die Verbindungsdaten festgelegt und die notwendigen Informationen selektiert/ ausgewählt.  Dieser Vorgang dient zur Vorbereitung der Transformationsphase. In den meisten ETL-Systemen lassen sich bei diesem Schritt auch bereits Daten-Vorschauen erzeugen, um ein Gefühl für die verfügbaren Daten zu erhalten.

Schritt 2 ist die Transformation der Daten in eine Zieldatenstruktur. Dabei können auf diesem Weg bereits weitere Daten hinzugefügt oder aufbereitet werden. Durch ETL-Systeme lassen sich hierbei bereits wesentliche und sehr umfangreiche Transformations-Prozesse in Rekordzeit durchführen.

Mögliche einfache Beispiele für Transformationen:

  • Änderung der Formatierung
  • Bereinigung leerer oder fehlerhafter Daten
  • Dublettenprüfung
  • Gruppieren, aufteilen oder neu sortieren der Daten
  • Aggregieren der Daten

Beim Schritt 3 handelt es sich in der Regel um das Laden der transformierten Daten in das Data Warehouse. Dabei gibt es mehrere Ansätze. Die am häufigsten verwendete Methode ist ein Laden in eine Staging-Umgebung. Dabei handelt es sich um eine Art Vorhof, in welchem die Daten als Bestandsdatensatz vorgehalten werden. Von hier aus erfolgt die weitere Verarbeitung innerhalb des Data Warehouse.

Ein anderer Ansatz ist die Daten im Transformationsschritt soweit vorzubereiten, dass Sie direkt in die historisierten/versionierten Tabellen des Data Warehouse implementiert werden können. Dieser Schritt ist erfahrungsgemäß deutlich fehleranfälliger und bei Problemen schwieriger zu analysieren und daher unbeliebter.

Datenhaltung


Bei der Datenhaltung handelt es sich im Wesentlichen um die Speicherung der Daten aus dem vorgelagerten ETL. Ziel ist es hierbei eine normalisierte, standardisierte und konsistente Datenhaltung zu gewährleisten. Dabei werden die Daten im Vorfeld in sogenannten Dimensionen strukturiert und den dafür vorbereiteten Tabellen hinzugefügt. Nicht zu vergessen ist, dass die Daten der Datenquellen, mit der höchsten Sicherheit und Datenqualität, in erster Priorität zu berücksichtigen sind. Ist dies identifiziert und umgesetzt, werden diese Daten idealerweise inkrementell historisiert und/oder versioniert hinzugefügt.

Datenversorgung


Hat man die Daten nun entsprechend aufbereitet, ist der schwierigste Schritt getan. Im nächsten Schritt werden die Daten für unterschiedliche Zwecke aufbereitet. Am Häufigsten werden hier weitere Datenbankensichten sowie Data Marts und/ oder OLAP-Cubes eingerichtet.

  • Datenbanksichten
    Eine sehr einfache Methode, um Daten einem Visualisierungssystem zur Verfügung zu stellen ist das Bereitstellen einer weiteren Datenbank, welche aus aggregierten Sichten bezugnehmend auf das DWH besteht. Diese Sichten werden dann direkt beim Presentation Layer angemeldet. Nachteil hierbei ist, dass i.d.R. diese Sichten lediglich bei Vorkonfigurationen der Systeme sogenannte „Drill downs“ ermöglichen.
  • Data Marts
    Ein Data Mart ist eine subjektorientierte Datenbank. Sie wird für Anforderungen einer bestimmten Benutzergruppe konzipiert. Meist handelt es sich dabei um ein Teilsegment eines Enterprise Data Warehouse (EDWH). Beispiele hierfür sind Data Marts für Fachbereiche wie Sales, Marketing oder HR. Eine weitere Möglichkeit sind beispielsweise Data Marts, welche Lieferanteninformationen oder Distributionsinformationen beinhalten.
  • Online Analytical Processings (OLAP)
    Die wohl beliebteste Methode ist die Bereitstellung von OLAP-Cubes. Dieser ist eine besondere Art der Speicherung von Daten. Diese sind nicht wie in relationalen Datenbanken in flachen Tabellen abgelegt. Die Daten werden multidimensional, ähnlich wie bei einem Rubik-Cube, abgelegt. Dabei bildet jeder Baustein des Würfels eine Dimension. Durch die Ablage der Daten in verschiedene Dimensionen lassen sie sich leicht aus unterschiedlichen Perspektiven und Detailstufen betrachten.

Datenvisualisierung


Mittlerweile gibt es eine Vielzahl an Anbietern. Dabei lassen sich diese in 3 Kategorien unterteilen. Im Wesentlichen unterscheiden sich diese im Leistungsumfang und den Sicherheitsstandards.

Dashboards

z.B. Geckoboard, Redash, Scoro, Power BI

Pivot

z.B. Datapine, Power BI

Enterprise

z.B. Microstrategy, Tableau, Business Objects, Power BI, Qlik

Datenauswertung


Zuletzt folgt die eigentliche BI, welche auf Grundlage der Daten und Auswertungen entsprechende Potenziale, Umstände, Herausforderungen identifiziert, testet und in das Unternehmen trägt. Dabei ist zu verstehen, dass es sich beim Begriff der Business Intelligence um einen technologiegetriebene Prozess zur Analyse und Präsentation verwertbarer Informationen handelt, welcher Führungskräften und Managern hilft, fundierte und nachhaltige Geschäftsentscheidungen zu treffen. Daher ist eine solide BI ohne ein Data Warehouse nahezu unmöglich.

DSGVO-konformes Webtracking

Finden Sie den passenden Partner für Ihr Webtracking!
DSGVO-konforme "Cookiebanner"

DSGVO-konforme „Cookiebanner“

Foto: Datenschutz-Stockfoto/Shutterstock Im Zusammenhang mit Online-Diensten wird oftmals der Begriff Tracking verwendet. Dieser ist allerdings im Datenschutzrecht nicht definiert. Im Wesentlichen wird darunter vereinfacht die

Weiterlesen »
Subscription Management mit PYM

„Make or Buy“ Subscription Management

Foto: PopTika/Shutterstock Was ist „Subscription Management“? Abo-Modelle sind eine beliebte Methode für Unternehmen eine langfristige Kundenbindung zu gewährleisten. Dabei werden heutzutage eine Vielzahl von Angeboten

Weiterlesen »

Privacy Shield weg – Was jetzt?

Foto: jijomathaidesigners/Shutterstock Was ist das Privacy Shield? Am 16. Juli 2020 hat der Europäische Gerichtshof (EuGH) eine Grundsatzentscheidung getroffen. Dabei wurde das Privacy Shield für

Weiterlesen »