Beiträge

Was ist Data Science?

Der Begriff „Data Science“ findet immer mehr Anwendung. Was aber genau versteht man unter dieser „Datenwissenschaft“? Dieses werden wir in diesem und weiteren Artikeln beantworten.

Data Science ist ein Prozess

Oft denkt man bei dem Begriff Data Science an künstlicher Intelligenz. Der Grund mag darin liegen, dass sich der Begriff „künstliche Intelligenz“ oder seine Abkürzung „KI“ seit Jahren durch Kino Block-Buster in unseren Köpfen als Magisches oder stellenweise auch Böses eingeprägt hat. Tatsächlich verstehen wir jedoch künstliche Intelligenz als einen Bestandteil der Data Science.

Wir definieren Data Science als den Prozess, der Mehrwerte aus Daten generiert. Diesen Prozess unterteilen wir in folgende Schritte:

  • Daten Akquise
  • Datenaufbereitung
  • Datenvisualisierung
  • Machine Learning
  • Bereitstellung der Lösung

Daten Akquise

Ein Meeresforscher braucht ein Meer zum Forschen, ein Datenwissenschaftler benötigt Daten, um Wissen und Informationen zu generieren. Ohne Daten ist Data Science nur in wenigen Ausnahmen möglich. In der Daten Akquise geht es zunächst darum, Daten zu sammeln. Woher die Daten stammen und welche Art von Daten gesammelt werden, ist ziemlich egal. Typische Daten wie aus einem Warenwirtschaftssystem, Maschinendaten aus einer Produktion, Bilder, Videos, Töne oder Texte – für jedes Format gibt es unzählige Möglichkeiten der Verarbeitung und Nutzung.

Daten liegen in Unternehmen oft an unterschiedlichen Orten auf unterschiedlichen Datenbanken. Manchmal werden einzelne Datenquellen bereits für eine Art Reporting verwendet wie zum Beispiel Zahlen aus dem Vertrieb, um wichtige Umsatzprognosen zu erstellen. Leider bleibt es zu oft bei aufwändig zu wartenden Insellösungen.

Datenaufbereitung

Data Science deckt auch die Verknüpfung und Aufbereitung von Daten ab. Um einen Mehrwert aus Daten zu erhalten, sind besonders die Verbindungen zu anderen Prozessen im Unternehmen von Interesse.

Die erste Hürde stellt dabei oft der Zugriff. Werden die Daten auf einer internen SQL Datenbank gespeichert, auf einer externen noSQL oder liegen diese bei einem Drittanbieter und sind nur per API abrufbar? Ein einfaches Beispiel für verteilte Informationen im Unternehmen ist der Lagerbestand, die Vertriebstätigkeiten und die Verfügbarkeit von Servicetechnikern.

Sind diese Unwägbarkeiten beseitigt, stellt sich die Frage wie die Daten miteinander in Verbindung stehen. Maschinendaten lassen sich meist über den Zeitstempel der Einträge verbinden. Andere Prozesse hängen zum Beispiel über eine Rechnungs-ID zusammen. In manchen Fällen fehlt diese Verbindung allerdings und die Herstellung dieser Verbindung stellt dann einen Schritt bei der digitalen Abbildung der Unternehmenslogik dar.

Datenvisualisierung

Sind diese Daten miteinander verknüpft und in Relation zueinander gebracht, werden sie visualisiert. Durch die Visualisierung lässt sich der komplette geschäftliche Ablauf eines Unternehmens zu jeder Zeit einsehen. Mehrwerte sind in diesem Fall zum einen die Gesamtübersicht aber vor allem die Möglichkeit noch viel mehr aus Ihren Daten zu machen und die Daten besser zu verstehen.

Wie stehen die Lagerbestände mit den Vertriebstätigkeiten in Verbindung? Wann muss ich auf potentielle Verkäufe mit einer Lageraufstockung reagieren? Wann muss ich bezogen auf die Vertriebstätigkeiten mit einer Personalaufstockung im Service reagieren, um eine hohe Kundenzufriedenheit zu gewährleisten? Die nun verbundenen Daten geben Aufschluss!

Prozessoptimierung

Sind die Daten erst einmal verbunden und aufbereitet, ist erfolgreich die Brücke zwischen verschiedenen Unternehmensbereichen geschlagen. Jetzt lassen sich Prozesse automatisieren und optimieren. Von einfachen Algorithmen, die nichts außer „wenn dies dann das“ machen bis hin zu komplexen statistischen Modellen.

Nun ist es an der Zeit Ihre Unternehmenslogik zu implementieren. Was vielleicht bereits durch Reports für einzelne Bereiche geschehen ist, lässt sich nun unternehmensweit aufbauen. Dabei werden moderne Analyse Tools wie Microsoft Power BI immer wichtiger. Mit Hilfe dieser Tools lassen sich Reports dynamisch gestalten und Teile der Unternehmenslogik im Hintergrund abbilden. Dynamisch hat in diesem Fall mehrere Auswirkungen. Zum einen kann durch mehrere Hierarchien geschaut werden, wie zum Beispiel die Anzahl bestimmter Verkäufe per Klick von monatlich auf täglich aufzufächern, oder hierarchisch durch Kennzahlen einer Abteilung zu den Kennzahlen der Unterabteilungen oder einzelnen Mitarbeiter zu schauen, ohne die Ansicht zu verlassen.

Durch die Implementierung einer Unternehmenslogik und die direkte Anbindung zu Datenbanken oder einem Data Warehouse, wird die Wartung minimiert und durch automatische Aktualisierungen ein Live-Monitoring gewährleistet.

Sind die KPIs identifiziert und in das dynamische Reporting eingebunden, können zusätzlich komplexe Workflows angebunden werden. So lassen sich beispielsweise automatisch Formulare für eine Budget-Freigabe versenden sobald eine oder mehrere Kennzahlen bestimmte Schwellwerte unter- oder überschreiten.

Fazit

Mit der Bereitstellung, der Verbindung und der Visualisierung der Daten steht das wertvolle Grundgerüst, um Mehrwerte aus Daten zu ziehen. Die weiteren Möglichkeiten sind nun nahezu unbegrenzt.

Sobald ein Datenpunkt irgendwo gespeichert ist, ist er historisch. Jedes Unternehmen hat allerdings ein besonderes Interesse, etwas mehr über seine Zukunft zu wissen. Sei es die zukünftige Auslastung seiner Mitarbeiter, eine Umsatzprognose oder die verbleibende Lebensdauer einer Maschine. Diese Möglichkeiten werden wir in einem folgenden Blogeintrag behandeln. Das Ergebnis einer Prognose sind jedoch erneut Datenpunkte, die in einem dynamischen Report eingebunden oder mit anderen Prozessen gekoppelt werden können.

Pressefundstück: Data Science bringt Sachlichkeit in die Güllediskussion

Mit Big-Data- und KI-Technologien wollen das Systemhaus NETGO und die NDM Naturwertstoffe GmbH einem Problem zu Leibe rücken, das Landwirtschaft und Verbraucher gleichermaßen beschäftigt – und nicht wenige Emotionen auslöst: die Gülle.

Zu viele tierische Hinterlassenschaften sind ein ernstes Problem für die Umwelt. Stickstoffverbindungen beeinträchtigen die Luftqualität durch Stickstoffdioxid, Ammoniak und sekundären Feinstaub. Zudem leidet das Grundwasser unter den großen Nitratmengen. Die NETGO GmbH und die NDM Naturwertstoffe GmbH, ein von Landwirten aus dem Kreis Borken gegründeter Spezialist für Gülle-Vollaufbereitung, gehen das Problem nicht emotional, sondern faktenbasiert an: Im Rahmen einer strategischen Partnerschaft haben sie eine „skalierbare und multiplizierbare Plattform aus Technologien, Maßnahmen und Verfahren“ entwickelt. Mit dem Projekt zählen sie zu den aussichtsreichen Bewerbern im Wettbewerb „Digital Leader Award“ von IDG Business Media GmbH und Dimension Data Deutschland.

Mithilfe von Data Science ist das Duo heute immer besser in der Lage, die komplexen Zusammenhänge hinter den Stickstoffeinträgen zu erkennen und zu verstehen. Ziel ist ein lückenloses Live-Monitoring von Umweltdaten, dem eigene und auch externe Datenquellen zugrunde liegen sollen. NETGO und NDM möchten Institutionen und Unternehmen ein Verfahrenskonzept für eine Vielzahl von Fragestellungen im Bereich der Umwelt zur Verfügung stellen.

Cloud-Plattform als technische Grundlage

Die Zusammenarbeit begann 2013. Damals steckte NDM noch in der Planungsphase einer inzwischen fertiggestellten Industrieanlage zur Gülle-Aufbereitung in der westfälischen Bauernschaft Nordvelen. Die Partner entwickelten zunächst eine Cloud-Plattform (IaaS und SaaS) als technische Grundlage für ein Forschungszentrum rund um Gülle-Aufbereitung. Das Data-Science-Team von NETGO analysiert auf dieser digitalen Infrastruktur Prozessdaten und stellt – auch mithilfe von KI-Algorithmen – Informationen für verschiedene Stakeholder bereit. Im engen Austausch mit den NDM-Experten werden so die für Umweltschutz und Verfahrenstechnik relevanten Fragestellungen verfolgt.

NETGO baute dafür eine sichere IT-Infrastruktur auf und kombiniert dort die erhobenen Maschinendaten und das verfahrenstechnische Know-how von NDM mit Methoden aus dem Data-Science-Bereich. Alle Systeme fließen in der Microsoft-Cloud zusammen, wo die Daten gesammelt, analysiert und visualisiert werden. Als herausfordernd bezeichnen die Projektbeteiligten das Einbinden externer Datenquellen, die beispielsweise der Deutsche Wetterdienst, die Energieversorger oder auch diverse Nährstoff- und Gewässerinformationsdienste beisteuern.

Neue Erkenntnisse über Stickstoff- und Phosphorkreisläufe

Produktion der NDM Naturwertstoffe GmbH

Das Team erreicht eigenen Angaben zufolge inzwischen eine „so noch nicht dagewesene Verfügbarkeit und Auswertbarkeit von Daten im Bereich Umwelttechnologien zur Vollaufbereitung von Wirtschaftsdüngern“. Durch das Zusammenspiel von Prozessentwicklung und Daten könnten ganz neue Informationen über Zusammenhänge und Wirkungen von Stickstoff- und Phosphorkreisläufe in der Landwirtschaft gewonnen werden. Auf dieser Datenbasis ließen sich neue innovative Umwelttechnologien entwickeln, die auch gleich im großen Maßstab erprobt werden könnten.

Kennzahlen, an denen das Team seinen Erfolg misst, sind etwa Recyclingkosten, die Energiebilanz oder auch Emissions- und Gewässer-Einleitwerte. Im nächsten Schritt sollen mittels der Datenanalyse Kennwerte und Vorgaben für die Bauern entwickelt werden. NETGO und NDM stehen in einem engen Dialog mit zuständigen Ministerien und Institutionen auf Bundes- und Landesebene. Etablierte Strategien zur Minderung von Stickstoffbelastung und Gülleausbringung würden anhand der erhobenen Daten durchaus in Frage gestellt.

Quelle: computerwoche.de, Heinrich Vaske