Kontakt

Data Warehouse

Datenlager für eine erfolgreiche digitale Transformation 

Der Geschäftserfolg von Unternehmen basiert zunehmend auf der Erfassung und Analyse digitaler Informationen. Nur mit vollständigen und ausreichenden Daten lassen sich Business Intelligence- und Big Data-Analysen durchführen, Machine Learning-Algorithmen und andere Methoden der künstlichen Intelligenz trainieren, Business Process-Plattformen betreiben, die Automatisierung von Geschäftsprozessen realisieren und die digitale Transformation vorantreiben. Laut dem Digitalverband Bitkom wird die Zahl der deutschen Betriebe, die von datengetriebenen Geschäftsmodellen abhängig sind, auch künftig kontinuierlich steigen. 

Um den größtmöglichen Nutzen aus den erfassten Daten ziehen zu können, müssen Informationen aus unterschiedlichsten Quellen zusammengeführt, validiert und normalisiert werden. Erst dann lassen sie sich für Analysezwecke optimal nutzen. Das Data Warehouse (DWH), auf Deutsch auch als „Datenlager“ bezeichnet, spielt hier als zentraler Umschlagplatz eine wesentliche Rolle für Digitalisierung, Datenmanagement, Dokumentenmanagement und Data Analytic. 

data-warehouse

Was ist ein Data Warehouse?

Der Begriff Data Warehouse geht auf den Ingenieur Dr. Barry Devlin zurück, der Mitte der 1980er Jahre die erste DWH-Architektur definierte und in seinem Standardwerk Data Warehouse. From Architecture to Implementation veröffentlichte. Heute wird unter einem Data Warehouse in der Regel eine Datenbank verstanden, in der Informationen aus vielen heterogenen Quellen zusammengeführt, konsolidiert und für Analysezwecke aufbereitet werden. Dieses Datenlager lässt sich dann für die digitale Prozessgestaltung, die Prozessautomatisierung, das Business Process Management oder für Business Analytics nutzen. 

Allgemein wird das Data Warehouse zu den OLAP (Online Analytical Processing)-Datenbanken gerechnet und damit von operationalen OLTP (Online Transaktion Processing)-Datenbanken unterschieden, die für Transaktionen wie Bestell- oder Abrechnungsprozesse eingesetzt werden. 

Ein Data Warehouse unterscheidet sich außerdem in seinen Anforderungen an Konsistenz und Aktualität von operationalen Datenbanken. Daten in Transaktionen sind flüchtig, nicht-konsistent und müssen immer aktuell gehalten werden. Im Data Warehouse werden Daten über einen längeren Zeitraum gespeichert, nur in bestimmten Abständen aktualisiert und konsistent gehalten. 

Was ist ein Cloud Data Warehouse?

Bei einem Cloud Data Warehouse wird die notwendige IT-Infrastruktur nicht lokal im eigenen Rechenzentrum gehostet, sondern von einem Cloud Provider als Service zur Verfügung gestellt. Beispiele für Cloud Data Warehouse-Lösungen sind BigQuery von Google, ein vollständig verwalteter und serverloser DWH-Dienst, oder das Cloud Data Warehouse Amazon Redshift von Amazon Web Services (AWS). Ebenso Azure Synapse Analytics von Microsoft oder das Provider-unabhängige Data Warehouse Snowflake. 

Ein Cloud Data Warehouse lohnt sich vor allem dann, wenn die zu analysierenden Daten bereits in der Cloud gespeichert sind oder ohnehin durch Cloud-Services erzeugt werden. Da das langwierige und kostenintensive Herunterladen in eine lokale Data Warehouse-Infrastruktur entfällt, können Analysen wesentlich schneller und kosteneffizienter durchgeführt werden. Auch andere cloudbasierte Prozesse wie die digitale Signatur, ein Dokumentenmanagement-System (DMS) oder Business Process-Plattformen lassen sich einfacher an ein Cloud Data Warehouse anbinden als an eine lokale Datacenter-Infrastruktur.

Was sind die wichtigsten Komponenten eines Data Warehouse? 

Ein Data Warehouse besteht in der Regel aus folgenden vier Komponenten: 

Datenbank: Für die Speicherung der aggregierten Daten kommt meist eine relationale Datenbank zum Einsatz, die auf SQL (Structured Query Language) basiert. Zunehmend werden aber auch nicht-relationale NoSQL-Datenbanken (Not only SQL) verwendet, die kein festes Tabellenschema benötigen und daher vor allem bei einem hohen Aufkommen an Schreib- und Lesevorgängen Performance-Vorteile bieten. Die Datenbank kann on-prem in einem lokalen Rechenzentrum betrieben, als gehostete Instanz bei einem Rechenzentrumsanbieter oder als Service aus der Cloud bezogen werden. 

ETL-Tools: Um die Informationen nutzbar zu machen, müssen sie aus den Quellsystemen extrahiert, in eine standardisierte Form gebracht und in das Data Warehouse geladen werden. Diese Aufgaben übernehmen ETL-Tools (Extract, Transform, Load). 

Metadaten: Zusatzinformationen über die Daten werden in der Regel in einer separaten Metadaten-Datenbank abgelegt. Zu den gespeicherten Merkmalen gehören zum Beispiel Ort und Zeit der Erhebung sowie Quelle und Format der Originaldaten.  

Analyse-Tools: Mit diesen Lösungen können Data Scientists und andere Fachkräfte Abfragen erstellen, Berichte erzeugen, Data Mining betreiben und eigene Anwendungen für Business Analytics entwickeln. 

Was sind die Vorteile eines Data Warehouse? 

Ein Data Warehouse bringt vor allem folgende Vorteile: 

Einheitliche Sicht auf alle Daten: Wenn Informationen fragmentiert in unterschiedlichen Formaten und verschiedenen Systemen vorliegen, lassen sich Zusammenhänge, Trends und Risiken nicht oder nur schwer erkennen und visualisieren. Ein DWH ermöglicht dagegen eine umfassende Data Analytic für Business Intelligence, die digitale Prozessgestaltung und die Automatisierung. 

Entlastung transaktionaler Systeme: In OLTP-Datenbanken kommt es auf hohe Geschwindigkeit an. So müssen zum Beispiel im Online-Handel Millionen von Transaktionen gleichzeitig und in Echtzeit verarbeitet werden können, um Bestellungen auszulösen oder Zahlungen durchzuführen. Analytische Auswertungen für Business Intelligence oder das Training von Machine Learning-Algorithmen würde die Systeme zusätzlich belasten und ausbremsen. Deshalb ist es sinnvoll, Datenmanagement- und Prozessmanagement-Aufgaben in ein Data Warehouse auszulagern. 

Entscheidungsvorbereitung und -unterstützung: Die umfassenden Möglichkeiten der Analyse in einem Data Warehouse ermöglichen es Geschäftsverantwortlichen, spezifische Fragen zur aktuellen Geschäftssituation zu beantworten und belastbare Prognosen für zukünftige Entwicklungen zu erstellen. Das erleichtert und verbessert strategische und operative Entscheidungen.  

Mustererkennung durch Data Mining: Ein Data Warehouse ist eine hervorragende Basis, um in den vorhandenen Daten nach bisher unerkannten Mustern und Geschäftsmöglichkeiten zu suchen. Hierbei können sowohl klassische Verfahren wie zum Beispiel die Cluster-Analyse, aber auch Methoden der künstlichen Intelligenz zum Einsatz kommen. 

Data Warehousing: Best Practices und Tipps 

Für den Aufbau oder Ausbau eines Data Warehouse sollten Geschäftsverantwortliche und IT-Entscheidende folgende Best Practices und Tipps beherzigen: 

  1. Definieren Sie Ihre Anforderungen: Ein Data Warehouse ist ein komplexes System und die Integration zahlreicher heterogener Datenquellen stellt eine nicht zu unterschätzende Herausforderung dar. Damit Zeit- und Budgetplanung nicht aus dem Ruder laufen, sollten Sie deshalb von Anfang an klar definieren, welche Ziele sie mit dem Data Warehouse-Projekt verfolgen. Welche Fragen sollen damit geklärt, welche Probleme gelöst werden? Welche Daten benötigen Sie dafür in welcher Detailtiefe und Qualität? Wie schnell benötigen Sie diese Daten und wie oft müssen die Informationen aktualisiert werden?
  2. Dokumentieren Sie Ihre Datenquellen: Die beste Strategie nützt nichts, wenn die erforderlichen Daten nicht oder nicht in ausreichender Qualität und Detailtiefe vorhanden sind. Verschaffen Sie sich deshalb einen Überblick darüber, wo und welche Informationen erhoben werden, in welchem Format sie vorliegen und wie sie in das Data Warehouse übermittelt werden sollen. Falls die vorhandenen Datenquellen nicht ausreichen, um die in Punkt 1 definierten Ziele zu erfüllen, sollten Sie zunächst Ihre Datenerfassung-Infrastruktur ausbauen, bevor Sie das DWH implementieren. 
  3. Wählen Sie die richtige Plattform: Wo und mit welcher Technologie Sie das Data Warehouse gestalten, hängt sehr stark von der Art, dem Entstehungsort und der Menge der Daten ab, die im DWH analysiert werden sollen. Befinden sich die Quellsysteme beispielsweise bereits überwiegend bei einem Cloud-Provider, ist es naheliegend, auch eine Cloud Data Warehouse-Lösung zu nutzen. Auch in Bereichen, in denen Informationen zum größten Teil online anfallen, etwa im E-Commerce, ist ein Cloud Data Warehouse die beste Option. Wollen Sie dagegen großen Datenmengen aus lokalen Produktionssystemen analysieren, hat ein DWH aus dem eigenen Rechenzentrum Vorteile.
  4. Stellen Sie ein Data Warehouse-Team zusammen: Der Aufbau und der Betrieb eines Data Warehouse erfordert viel Know-how und kann nicht so einfach nebenher erledigt werden. Stellen deshalb ein dediziertes Team aus Fachkräften zusammen, die sich mit dem Management von Datenbanken und deren Nutzung auskennen. Neben IT-Expert*innen sollten auch Datenanalyse-Spezialkräfte wie Data Scientists und Data Engineers zu diesem Team gehören.
  5. Holen Sie sich Unterstützung: In vielen Unternehmen ist die Personaldecke im IT-Bereich äußerst dünn. Es empfiehlt sich daher, für ein so großes Projekt wie die Einführung eines Data Warehouse, externe Unterstützung zu suchen. Es kann auch sinnvoll sein, den Betrieb des Data Warehouse an einen Managed Service Provider auszulagern, um die eigene IT-Abteilung von Routineaufgaben zu entlasten und Ressourcen für Aufgaben der digitalen Transformation frei zu machen.

Sprechen Sie jetzt mit unseren Experten!


Als netgo group bringen wir Menschen und Technologien
erfolgreich zusammen.
Dabei denken wir ganzheitlich, verstehen
das Geschäft unserer Kunden und ebnen den Weg für eine smarte und intelligente Digitalisierung.

Kontakt