"Daten sind die Rohstoffe des 21. Jahrhunderts", betonte Angela Merkel (Bundeskanzlerin der Bundesrepublik Deutschland 2005 - 2021) in einem Videostatement zur Cebit im März 2016.
Big Data ist ein Sammelbegriff für eine ganze Reihe von anfallenden Massendaten. Während beispielsweise in der Finanzindustrie täglich massenhaft Börsendaten, Transaktionsdaten etc. anfallen, werden in der Industrie tagtäglich automatisch Daten bei Produktionsprozessen erhoben bzw. fallen die unterschiedlichsten Verbrauchsdaten oder Kommunikationsdaten an. Die Analyseansätze und -methoden sowie die Art der Visualisierung bestimmen dabei im Wesentlichen darüber, welche Erkenntnisse sich aus diesen Datenmengen gewinnen lassen.
Metadaten sind gewissermaßen Daten über andere Daten. Metadaten enthalten Informationen zu weiteren Daten und fassen diese zusammen oder ergänzen diese (z.B. werden Fotos beim Abspeichern der Aufnahme mit solchen weitergehenden Infos wie Belichtungszeit, Ort und Blendenzahl versehen). Auch im Bereich von Maschinendaten und Messwerten fallen Metadaten an. Sie können getrennt von Daten gespeichert und analysiert werden. Durch die Verarbeitung von Metadaten beschleunigt sich die Big Data Analyse.
Hadoop ist ein Java basiertes Software Framework. Das Hadoop Framework unterstützt rechenintensive Prozesse, wie sie im Bereich von Big Data anfallen. Hadoop setzt sich aus einem Set von grundlegende Funktionen, dem Hadoop Common und einem Cluster-Dateisystem, dem Hadoop Distributed File System zusammen. Es umfasst außerdem den von Google entwickelten MapReduce-Algorithmus auf dessen Basis die Daten verarbeitet werden.
Mit dem Begriff Predictive Maintenance wird die “vorhergesagte Wartung” von Maschinen und Anlagen in der Industrie 4.0 bezeichnet. Für diesen Zweck werden eine sehr große Menge an Daten erfasst und gespeichert. Diese Massendaten werden dann mittels Software und verschiedener Analysemethoden aus dem Bereich Big Data ausgewertet. Es werden dann Eintrittswahrscheinlichkeiten für bestimmte Ereignisse errechnet. Diese bilden dann die Handlungsgrundlage für die Wartung.
Process Mining stellt die Verbindung zwischen dem Data Mining und dem Prozessmanagement dar. Es dient der Analyse von Geschäftsprozessen. Hierbei wird auf die verteilt im Unternehmen vorhandenen Prozessdaten (z.B. das Process Log von ERP-Systemen) zugegriffen. Diese Daten werden durch das Process Mining zusammengeführt und visualisiert. Ziel ist die Prozessoptimierung z.B. in Bezug auf die Kosten, die Durchlaufzeiten oder die Compliance.
Streaming-Daten sind solche Daten, die permanent anfallen, aufgezeichnet werden und in kleinen Datenpaketen in die Cloud geschickt werden. Das sind z.B. Daten von mobilen Apps, Daten über Einkäufe im Internet oder Informationen aus sozialen Netzwerken oder Telemetriedaten von Transportfahrzeugen.
Ergänzend zu den allgemeinen Softwarekriterien, die in den vorangegangenen Abschnitten beschrieben wurden, finden Sie nachfolgend fachspezifische Kriterien zur Bewertung von Big Data Analyse Software.
1 | Einhaltung gesetzlicher oder freiwilliger Regeln und Richtlinien |