
DWH – Single Source of Truth
Das Data Warehouse ist das zentrale System, welches zu Analysezwecken im Unternehmen eingesetzt wird. Dessen Prozesse extrahieren, sammeln und sichern relevante Daten aus strukturierten oder unstrukturierten Datenquellen. Zudem werden nachgelagerte Systeme mit aufbereitete Informationen versorgt.
Ein Data Warehouse ist themenorientiert aufgebaut und basiert auf den wichtigsten Fakten eines Unternehmens (Kunden, Marketing, Lieferanten, usw.). Dadurch haben Entscheider die Möglichkeit, Unternehmensdaten aus verschiedenen Perspektiven zu betrachten.
Daten stammen aus unterschiedlichen, heterogenen Datenquellen, hierin sind Datenredundanzen und damit verbundene Inkonsistenzen kaum vermeidbar. Um ein konsistentes Datenmanagement in einem Data Warehouse zu ermöglichen, müssen daher diese Strukturen aufgebrochen und standardisiert bzw. normalisiert werden.
In Ihren Produktivsystemen werden meist aktuell gültigen Daten gespeichert. D.h. es werden permanent neue Daten hinzugefügt, bestehende Daten verändert und ggf. auch gelöscht. Im Gegensatz dazu werden die Daten in einem Data Warehouse historisiert und/ oder versioniert, sodass jeder gültige Zustand zu jedem Zeitpunkt abrufbar ist.
Oftmals geht mit dem Begriff Data Warehouse auch der Begriff Business Intelligence (auch „BI“) einher. Dabei bildet das Data Warehouse vielmehr die Grundlage für eine solide BI. Ist diese Grundlage geschaffen, sind Sie erst in der Lage auf geprüfte und konsistente Daten zurückzugreifen. Schlussfolgernd können Sie auch erst dann sichere Aussagen über die Geschäftsentwicklung tätigen und haben die Sicherheit über die Richtigkeit Ihrer Kennzahlen.
Häufig vertrauen unsere Kunden im ersten Moment auf die von dem implementierten System zur Verfügung gestellten Kennzahlen. Sobald Sie sich aber die Zusammenhänge genauer ansehen, sind Sie überrascht, dass es doch sehr unlogische Konstellationen gibt.
Wie schafft ein DWH diese Konsistenz herzustellen?
Das DWH muss technisch vielmehr als ein ganzheitlicher Datenverarbeitungsprozess gesehen werden. Viele verstehen darunter lediglich einen Ort der Datenhaltung. Diese Betrachtungsweise ist aber falsch, da das Vorgehen mehrstufig stattfindet. Dabei kann man linear betrachtet von einer Datenbeschaffung, Datenhaltung, Datenversorgung und Datenvisualisierung sprechen.
Datenbeschaffung
Bei der Datenbeschaffung sprechen wir in der Regel über den ETL (Extrahieren, Transformieren, Laden). Es beschreibt einen Prozess, welcher aus mehreren Einzelschritten besteht. Dabei werden Daten aus verschiedenen Quellen in ein Data Warehouse integriert. Ziel ist es, die integrierten Daten für die weitere Verarbeitung vorzubereiten und bereitzustellen.
Schritt 1 ist die Extraktion der Daten aus dem Quellsystem. Dabei werden die Verbindungsdaten festgelegt und die notwendigen Informationen selektiert/ ausgewählt. Dieser Vorgang dient zur Vorbereitung der Transformationsphase. In den meisten ETL-Systemen lassen sich bei diesem Schritt auch bereits Daten-Vorschauen erzeugen, um ein Gefühl für die verfügbaren Daten zu erhalten.
Schritt 2 ist die Transformation der Daten in eine Zieldatenstruktur. Dabei können auf diesem Weg bereits weitere Daten hinzugefügt oder aufbereitet werden. Durch ETL-Systeme lassen sich hierbei bereits wesentliche und sehr umfangreiche Transformations-Prozesse in Rekordzeit durchführen.
Mögliche einfache Beispiele für Transformationen:
- Änderung der Formatierung
- Bereinigung leerer oder fehlerhafter Daten
- Dublettenprüfung
- Gruppieren, aufteilen oder neu sortieren der Daten
- Aggregieren der Daten
Beim Schritt 3 handelt es sich in der Regel um das Laden der transformierten Daten in das Data Warehouse. Dabei gibt es mehrere Ansätze. Die am häufigsten verwendete Methode ist ein Laden in eine Staging-Umgebung. Dabei handelt es sich um eine Art Vorhof, in welchem die Daten als Bestandsdatensatz vorgehalten werden. Von hier aus erfolgt die weitere Verarbeitung innerhalb des Data Warehouse.
Ein anderer Ansatz ist die Daten im Transformationsschritt soweit vorzubereiten, dass Sie direkt in die historisierten/versionierten Tabellen des Data Warehouse implementiert werden können. Dieser Schritt ist erfahrungsgemäß deutlich fehleranfälliger und bei Problemen schwieriger zu analysieren und daher unbeliebter.
Datenhaltung
Bei der Datenhaltung handelt es sich im Wesentlichen um die Speicherung der Daten aus dem vorgelagerten ETL. Ziel ist es hierbei eine normalisierte, standardisierte und konsistente Datenhaltung zu gewährleisten. Dabei werden die Daten im Vorfeld in sogenannten Dimensionen strukturiert und den dafür vorbereiteten Tabellen hinzugefügt. Nicht zu vergessen ist, dass die Daten der Datenquellen, mit der höchsten Sicherheit und Datenqualität, in erster Priorität zu berücksichtigen sind. Ist dies identifiziert und umgesetzt, werden diese Daten idealerweise inkrementell historisiert und/oder versioniert hinzugefügt.
Datenversorgung
Hat man die Daten nun entsprechend aufbereitet, ist der schwierigste Schritt getan. Im nächsten Schritt werden die Daten für unterschiedliche Zwecke aufbereitet. Am Häufigsten werden hier weitere Datenbankensichten sowie Data Marts und/ oder OLAP-Cubes eingerichtet.
- Datenbanksichten
Eine sehr einfache Methode, um Daten einem Visualisierungssystem zur Verfügung zu stellen ist das Bereitstellen einer weiteren Datenbank, welche aus aggregierten Sichten bezugnehmend auf das DWH besteht. Diese Sichten werden dann direkt beim Presentation Layer angemeldet. Nachteil hierbei ist, dass i.d.R. diese Sichten lediglich bei Vorkonfigurationen der Systeme sogenannte „Drill downs“ ermöglichen. - Data Marts
Ein Data Mart ist eine subjektorientierte Datenbank. Sie wird für Anforderungen einer bestimmten Benutzergruppe konzipiert. Meist handelt es sich dabei um ein Teilsegment eines Enterprise Data Warehouse (EDWH). Beispiele hierfür sind Data Marts für Fachbereiche wie Sales, Marketing oder HR. Eine weitere Möglichkeit sind beispielsweise Data Marts, welche Lieferanteninformationen oder Distributionsinformationen beinhalten. - Online Analytical Processings (OLAP)
Die wohl beliebteste Methode ist die Bereitstellung von OLAP-Cubes. Dieser ist eine besondere Art der Speicherung von Daten. Diese sind nicht wie in relationalen Datenbanken in flachen Tabellen abgelegt. Die Daten werden multidimensional, ähnlich wie bei einem Rubik-Cube, abgelegt. Dabei bildet jeder Baustein des Würfels eine Dimension. Durch die Ablage der Daten in verschiedene Dimensionen lassen sie sich leicht aus unterschiedlichen Perspektiven und Detailstufen betrachten.
Datenvisualisierung
Mittlerweile gibt es eine Vielzahl an Anbietern. Dabei lassen sich diese in 3 Kategorien unterteilen. Im Wesentlichen unterscheiden sich diese im Leistungsumfang und den Sicherheitsstandards.
Dashboards
z.B. Geckoboard, Redash, Scoro, Power BI
- Grafische Darstellung von Daten
- Einfache technische Implementierung
- Preiskategorie bis 200 EUR p.M.
- Datenkonsistenz ist abhängig von der Datenquelle
- Self Service meist nicht gegeben
- Meist cloudbasierte Lösung, daher DSGVO-Check notwendig.
Pivot
z.B. Datapine, Power BI
- Grafische Darstellung von Daten
- Einfache technische Implementierung
- Upload und Analyse lokaler Daten
- Preiskategorie bis 1.000 EUR p.M.
- Ausreichender Funktionsumfang zum Self Service für Endanwender
- Datenkonsistenz ist abhängig von der Datenquelle.
- Meist cloudbasierte Lösung daher DSGVO-Check notwendig
Enterprise
z.B. Microstrategy, Tableau, Business Objects, Power BI, Qlik
- Graphische Darstellung von Daten
- Statistische Darstellung von Daten
- Upload, Verknüpfung und Analyse lokaler Daten
- Optimaler Funktionsumfang für Adhoc-Analysen
- Datenkonsistenz ist sichergestellt
- DSGVO-konform
- Preiskategorie ab 2.000 EUR
- Komplexe technische Implementierung
Datenauswertung
Zuletzt folgt die eigentliche BI, welche auf Grundlage der Daten und Auswertungen entsprechende Potenziale, Umstände, Herausforderungen identifiziert, testet und in das Unternehmen trägt. Dabei ist zu verstehen, dass es sich beim Begriff der Business Intelligence um einen technologiegetriebene Prozess zur Analyse und Präsentation verwertbarer Informationen handelt, welcher Führungskräften und Managern hilft, fundierte und nachhaltige Geschäftsentscheidungen zu treffen. Daher ist eine solide BI ohne ein Data Warehouse nahezu unmöglich.