Data Mining ist ein Prozess, der Daten aus unterschiedlichen Blickrichtungen analysiert um neue Erkenntnisse daraus zu gewinnen. In der Regel handelt es sich dabei um große unformatierte bzw. unstrukturierte Datenmengen. Hierzu werden die gesammelten Daten aus den verschiedenen Systemen extrahiert und aufbereitet und dann in einer multidimensionalen Datenbank z.B. im Data Warehouse verwaltet. Zur Analyse der Daten werden die unterschiedlichsten Verfahren (Clusteranalyse1 , Bayes-Klassifikation2 etc.) benutzt und die so gewonnenen Ergebnisse dann graphisch aufbereitet präsentiert. Die graphische Aufbereitung bzw. die Visualisierung bildet den Schwerpunkt des Data Mining.
Die Data Mining Anwendungen reichen von Marketing-Optimierungen (E-Commerce, Telekommunikation etc) und Risikoprognosen (Banken, Versicherungen usw.), über Warenkorb-Analysen und Betrugserkennung bis hin zu Prozessoptimierung, Fehleranalyse und Qualitätssicherung im Bereich der Industrie. So lassen sich beispielsweise Fehlermuster im Herstellungsprozess erkennen oder Qualitätsmerkmale in Echtzeit überwachen. Data Mining kann ebenfalls für die Software Entwicklung hilfreich sein. Auch Behörden haben Data Mining Tools im Einsatz um z.B. Unregelmäßigkeiten in Geldgeschäften (Geldwäsche) zu erkennen.
Text Mining 3 ist Wissensgewinnung aus Texten, eine Unterform des Data Minings. Dabei werden unstrukturierte Textdaten gesammelt, aufbereitet und ausgewertet. Textdaten können sowohl aus normalen Textdokumenten als auch von Webseiten oder aufbereiteten Sounddateien oder Bitmaps stammen.
Web Mining ist die Wissensgewinnung über Datenstrukturen im Internet. Dies erfolgt beispielsweise über Web-Traffic-Analyse Programme oder über Tools die zusätzlich auch Data Mining Funktionalitäten besitzen. Diese können dann z.B. eine Stimmungsanalyse, zu bestimmten Meinungen, Produkten oder Dienstleistungen auf Internetportalen oder in sozialen Medien wie z.B. Twitter oder Facebook abbilden. Ausgehend von einer Internetseite kann Web Mining Software verlinkte Seiten und deren Inhalte und dann wiederum die von dort aus verlinkten Seiten und Unterseiten usw. durchsuchen, aufnehmen und analysieren.
Ergänzend zu den allgemeinen Softwarekriterien, die in den vorangegangenen Abschnitten beschrieben wurden, finden Sie nachfolgend fachspezifische Kriterien zur Bewertung von Data Mining Software.
1 | vgl. auch Marktforschungs Wiki Clusteranalyse, aufgerufen am 29.01.2018 |
2 | vgl. auch IBM Knowledge Center Naive Bayes-Klassifikation, aufgerufen am 24.01.2018 |
3 | vgl. auch Enzyklopädie der Wirtschaftsinformatik Text Mining, aufgerufen am 24.01.2018 |
4 | vgl. auch Wikipedia CART - Classification and Regression Trees Algorithmus zur Entscheidungsfindung, aufgerufen am 25.01.2018 |
5 | vgl. auch Wikipedia CHAID - Chi-square Automatic Interaction Detectors Algorithmus zur Entscheidungsfindung, aufgerufen am 25.01.2018 |
6 | vgl. auch: 4 Softwaredokumentation |