Data Mining bezeichnet einen Analyseprozess, bei dem mithilfe von computergestützten Methoden bestimmte Datenmuster aus Datenbeständen gewonnen werden.
Beim Data Mining werden Algorithmen eingesetzt, um Muster, Beziehungen und Zusammenhänge in Datenbeständen zu finden. Die Algorithmen können sowohl statische Methoden als auch neuartige Algorithmen wie zum Beispiel Künstliche Intelligenz (KI) umfassen.
Mithilfe von Data Mining ist es möglich Zusammenhänge in Daten zu identifizieren. In der Regel werden folgende Methoden angewendet:
Klassifizierung nach bestimmten Objektmerkmalen bzw. Attributen
Assoziation, bei denen ein Ereignis (z.B. Kauf des Produktes A) mit einem anderen Ereignis (Kauf des Produktes B) verknüpft ist
Clusteranalyse, bei der neue Objektgruppen gefunden und dokumentiert werden
Sequenz oder Pfadanalyse (ob ein Ereignis zu einem späteren Ereignis führt)
Vorhersage, bei der Muster in den Daten zu einer Prognose über das zukünftige Verhalten der Objekte führt
Der geltende Data-Mining-Analyseprozess, auch CRISP-DM (Cross Industry Standard Process for Data Mining) genannt, wird in sechs Schritte gegliedert:
Geschäftsverständnis: In dem ersten Schritt werden Ziele des Projektes und des jeweiligen Data Mining Konzepts definiert. Dabei ist es von Vorteil, Zeitpläne und Rollenzuweisungen und Aktionen innerhalb der Arbeitsgruppe zu verteilen.
Datenverständnis: Im zweiten Schritt werden alle verfügbaren Datenquellen erfasst und deren Nutzen und Qualität für die Bearbeitung der Projektziele bewertet.
Datenvorbereitung: Anschließend werden die Daten für das Data Mining vorbereitet, indem u.a. falsche Daten bereinigt und fehlende Daten ergänzt werden.
Datenmodellierung: Im vierten Schritt werden die für die Aufgabenstellung geeigneten Methoden des Data Minings auf den in der Datenvorbereitung erstellten Datensatz angewandt. In dieser Phase werden die berechneten Parameter optimiert und mehrere Modelle erstellt.
Evaluierung: Die Ergebnisse werden anhand der Datenmodellierung bewertet, in Relation zu den Projektzielen gesetzt und das am besten passende Modell wird ausgewählt.
Deployment: Abschließend werden die Data Mining Ergebnisse sinnvoll in den bestehenden Geschäftsbetrieb integriert.