Data Mining

Aus TBZ_-_Wiki
Wechseln zu:Navigation, Suche

Startseite > Modul_151



Einleitung

Durch den extremen Fortschritt in der Informatik, welcher in den letzten Jahren stattgefunden hat, konnten viele Geschäftsprozesse automatisiert werden. Eine Vielzahl von alltäglichen Vorgängen, wie z. B. Telefongespräche oder Banktransaktionen, werden heute automatisch erfasst und verarbeitet. Ausserdem haben sich die Speichertechnologien rasant weiterentwickelt. Speichermedien werden je länger je grösser und günstiger. Dies führt zu riesigen Datenbeständen, da immer grössere Datenmengen über immer längere Zeiträume gespeichert werden. Daten manuell zu analysieren ist heutzutage nahezu unmöglich geworden, es werden immer effizientere und schnellere Analyseverfahren benötigt, um nützliches Wissen aus den Datenmengen zu erlangen. Ein Verfahren, um solche Informationen aus den Datenbanken zu gewinnen, ist das Data Mining. Dies ist für Unternehmungen insbesondere von Nutzen, um das Verhalten ihrer Kunden zu untersuchen, und somit einen Wettbewerbsvorteil gegenüber ihrer Konkurrenz zu erzielen.

Definition

Data Mining bedeutet so viel wie "aus einem Datenberg etwas Wertvolles extrahieren". Man versteht darunter die Anwendung statistischer Verfahren auf einen Datenbestand, um neue Muster zu erkennen. Ursprünglich diente Data Mining vor allem für die Verarbeitung sehr grosser Datenmengen, die manuell nicht verarbeitet werden konnten. Die Methode wird aber auch für kleinere Datenmengen angewendet. Der Begriff "Data Mining" hat sich heute für den gesamten Prozess der so genannten "Knowledge Discovery in Databases" (Wissensentdeckung in Datenbanken) etabliert und beinhaltet somit auch Schritte wie z.B. die Vorberarbeitung der Daten, welche nicht wirklich zum Data Mining gehören. Dieses umfasst offiziell nämlich nur die Analyse der Daten. Die reine Erfassung, Speicherung und Verarbeitung von grossen Datenmengen wird zum Teil auch fälschlicherweise mit dem Begriff Data Mining bezeichnet. Korrekt verwendet bezeichnet Data Mining die Extraktion von Wissen, das im statistischen Sinne gültig, bisher unbekannt und potentiell nützlich ist zur Bestimmung bestimmter Regelmässigkeiten, Gesetzmässigkeiten und verborgener Zusammenhänge.

Aufgaben

Data Mining erfüllt diverse Aufgaben. Zum einen wird es verwendet um Ausreisser aus einer Datenbank zu erkennen. Diese Datensätze beinhalten meistens Fehler, oder es sind nicht typische Änderung durchgeführt worden. Es können auch ungewöhnliche Attribute auftreten, welche diese Einträge von den anderen differenzieren. Doch genau diese sind interessant für eine Statistik. Entweder werden sie vor der Veröffentlichung herausgeschnitten, damit die gesamte Statistik stabil wirkt und keine Abweichungen aufweist, oder diese Datensätze werden hervorgehoben, um genau diese Abweichungen zu zeigen und auf diese hinzuweisen. Diese Aufgabe wird Ausreissererkennung genannt.

Zum anderen wird Data Mining genutzt, um eine Clusteranalyse durchzuführen. Mit dieser Methode werden Objekte aufgrund von Ähnlichkeiten in neuen Gruppen zusammengefasst. Dies ist genau das Gegenteil von der Ausreissererkennung, aber sie verfolgen die gleichen Ziele, nämlich das Darstellen der vorhandenen Daten in einer Statistik.

Ähnlich wie die Clusteranalyse funktioniert auch die Klassifikation. Hier werden auch Objekte in die Klassen hinzufügt. Dieses Mal bestehen die Klassen schon in der Datenbank (z.B. Tram, Auto, usw.).

Die Assoziationsanalyse identifiziert die Zusammenhänge in Form von Regeln hervorgehend aus der Abhängigkeit der Daten. Einfach gesagt aus “A“ und “B“ folgt “C“. Ein bekanntes Beispiel ist dabei der Einkauf der Windeln von Männern. A = Windeln und B = Bier wurden oft von Männern zusammen gekauft. Daraus erfolgt die Regel = C: Kunde kauft Windeln --> Kunde kauft Bier. Dies lässt folgende Interpretation zu. Wenn die Ehefrauen ihre Männer zum Windeln einkaufen schicken, kaufen diese noch ein Pack Bier mit ein. Als Experiment wurde das Bierregal auf dem Weg zu den Windeln hingestellt, dadurch wurde angeblich der Bierverkauft erhöht.

Bei der Regressionsanalyse wird die Beziehung zwischen unterschiedlichen Attributen aufgezeigt. Auf diese Weise wird erkannt, ob die Datenbank fehlende Attributswerte aufweisst, sie kann auch wie die Ausreisserkennung genutzt werden. In der Verbindung mit der Clusteranalyse können bessere Prognosen erstellt werden.


Data Minding wird unter anderem eingesetzt für:

  • Kundensegmentierung für Marketing
    • Gruppierung von Kunden mit ähnlichem Kaufverhalten / ähnlichen Interessen
    • Nutzung für gruppenspezifische Empfehlungen
  • Warenkorbanalyse: Produkt-Platzierung im Laden, Preisoptimierung, etc.
  • Bestimmung der Kreditwürdigkeit von Kunden (elektronische Vergabe von Kreditkarten, schnelle Entscheidung über Versicherungsanträge, ...)
    • schnelle Entscheidung erlaubt neue Kunden zu gewinnen
    • Technik: Entscheidungsbaum-Klassifikator
  • Entdeckung wechselbereiter Kunden
  • Unterstützung im Data Cleaning
  • Web Usage Mining
  • Text Mining: inhaltliche Gruppierung von Dokumenten, E-Mails

Verfahren

Ursprünglich wurde Data Mining als statisches Verfahren von Unternehmen eingesetzt. Dabei haben Statistiker mittels Formeln und einfacher Software Datenbeständen analysiert. Dank zunehmender Leistungsfähigkeit von Computern und technischem Fortschritt kann heutzutage Software mit künstlicher Intelligenz für Data Mining eingesetzt werden.

Folgende Verfahren werden heutzutage eingesetzt:


Künstliche neuronale Netze

Das Verfahren ist der biologischen Informationsverarbeitung nachempfunden und ein selbstlernendes lineares Prognoseverfahren.

Kohonen-Netze

Ist ein auf neuronalen Netzen basierendes Segmentierungsverfahren, das Gruppen innerhalb eines Datensatzes bildet.

Lineare Regression

Die lineare Regression gibt einen Zusammenhang zwischen zwei oder mehr Variablen an. Bei der Regressionsanalyse wird vorausgesetzt, dass es einen gerichteten linearen Zusammenhang gibt, das heißt, es existieren eine abhängige Variable und mindestens eine unabhängige Variable. Welche Variablen abhängig und welche unabhängig sind, muss aufgrund inhaltlich logischer Überlegungen identifiziert werden.

Genetische Algorithmen

Genetische Algorithmen orientieren sich an der biologischen Evolution. Diese versuchen ausgehend von einer oder mehreren zulässigen Lösungen (Punkten im Lösungsraum/Suchraum), sich Schritt für Schritt der optimalen Lösung zu nähern.

CHAID

Chi-squared Automatic Interaction Detection ist der Älteste der gängigen Entscheidungsbaum-Algorithmen und eine Methode, die eine Menge von Datensätzen nach einer abhängigen Variable in Gruppen einteilt.

Regelbasierte Systeme

Regelbasierte Systeme sind Methoden, die zum Filtern und Ermitteln von „Wenn-Dann“-Regeln dienen.

Abgrenzung von anderen Fachbereichen

Viele der im Data Mining eingesetzten Verfahren stammen aus der Statistik und werden für die Anwendung im Data Mining lediglich in ihrer Komplexität angepasst. Dabei werden sie oft approximiert und sind somit nicht mehr vollumfänglich exakt. Dieser Verlust an Genauigkeit führt oft zu einem Verlust an statistischer Gültigkeit, so dass die Verfahren aus einer rein statistischen Sicht sogar „falsch“ sein können. Für das Data Mining ist dies jedoch nicht so sehr von Bedeutung, da dabei eher der experimentell nachgewiesene Nutzen und die schnelle Laufzeit des Verfahrens im Zentrum stehen.

Ebenfalls eng verwandt mit dem Data Mining ist das maschinelle Lernen. Dabei steht jedoch mehr das automatische Wiedererkennen bereits bekannter Muster durch den Computer im Zentrum, während Data Mining sich eher auf das Finden neuer Muster fokussiert.

Eine wichtige Voraussetzung, um mit Hilfe von Data Mining gültige Ergebnisse zu erhalten, ist die Datenerhebung. Es ist wichtig, dass Informationen systematisch erfasst werden. Auch die Forschung im Bereich der Datenbanksysteme, insbesondere von Indexstrukturen, ist für das Data Mining von grosser Bedeutung. Durch einen geeigneten Datenbankindex kann das Verfahren wesentlich beschleunigt, und dessen Komplexität enorm reduziert werden.

Information Retrieval ist ein Fachgebiet, welches von den Erkenntnissen des Data Minings enorm profitiert. Es geht dabei um die computergestützte Suche nach komplexen Inhalten und um deren Präsentation für den Benutzer. Z.B. können durch die Clusteranalyse ähnliche Suchergebnisse gruppiert, und somit übersichtlicher dargestellt werden.

Probleme

Defekte Daten

Bei der Erfassung der Daten in einer Datenbank können durch ungenügende Vorverarbeitungen, systematische Fehler oder Verzerrungen diverse Probleme auftreten. Diese Probleme sollten schon bei der Erfassung der Daten berücksichtigt werden. Wenn diese Knacknüsse weiterhin bestehen, können keine repräsentativen Abfragen gestartet werden, um daraus korrekte Schlüsse zu ziehen.

Parametrisierung

Das erste Problem ist, dass die Parameter in dem Data Mining Prozess falsch gesetzt werden. Somit wird der Algorithmus fehlschlagen. Das zweite, noch grössere Problem ist, dass unter Umständen falsche Muster gefunden werden, die gar nicht wirklich existieren, oder dass die Wichtigkeit der gefundenen Muster bei weitem überschätzt wird.

Evaluation

Mit der Bewertung der Data Mining Ergebnisse will der User neue Erkenntnisse in Erfahrung bringen. Bei Prognoseproblemen wie der Klassifikation, Regressionsanalyse und Assoziationsanalyse lässt sich hier die Prognose auf neue Daten zur Bewertung verwenden. Bei der Ausreissererkennung und der Clusteranalyse (Beschreibungsprobleme) sieht dies anders aus. Cluster werden intern oder extern anhand ihrer Übereinstimmung mit bekannten Klassen verglichen. Beim Ausreisserverfahren werden die Daten mit schon bekannten Ausreissern von einem früheren Data Mining Prozess verglichen. Ist dies dann auch eine neue Erkenntnis? Oder wird nur eine alte Auswertung bewertet?

Interpretation

Alle Daten die mit Data Mining eruiert werden, sagen ohne Hintergrundwissen wenig aus. Die dazugehörigen Verfahren können meistens nur einfache Modelle wie Gruppen oder Mittelwerte liefern. Sie müssen zuerst von einem Benutzer, welcher über Hintergrundwissen verfügt, interpretiert werden.

Beziehen sich die zu analysierenden Daten auf Personen, so enstehen zudem wichtige rechtliche, moralische und psychologische Probleme. Diese tauchen jedoch nicht erst bei der Analyse, sondern bereits bei der Erfassung und Speicherung der Daten auf.

Rechtliche Aspekte

Daten, die ungenügend anonymisiert wurden, können durch die Datenanalyse möglicherweise wieder konkreten Personen zugeordnet werden.Dies ist durch das Datenschutzrecht verboten. Diese Problematik tritt nicht nur bei der Verwendung von Data Mining auf, sondern auch bei anderen Analysemethoden, wie z.B. Statistik.

Moralische Aspekte

Auch moralisch wird die Anwendung von Data Mining auf personenbezogene Daten oft hinterfragt, beispielsweise ob ein Computerprogramm Menschen in "Klassen" einteilen sollte. So wird z.B.der SCHUFA-Score scharf kritisiert, weil er eine Einteilung der Menschen in die Klassen "kreditwürdig" und "nicht kreditwürdig" vornimmt.

Psychologische Aspekte

Data Mining Verfahren ansich arbeiten werneutral und berechnen nur Wahrscheinlichkeiten, ohne deren Bedeutung zu kennen. Dennnoch ist es wichtig abzuwägen, ob und wie man jemanden mit Ergebnissen aus diesen Analysen konfrontiert, denn dies kann oft überraschte, beleidigte oder befremdete Reaktionen zur Folge haben.

Anwendungsbeispiel aus der Praxis

Eine Versicherung möchte ein Bewertungsraster erstellen. Es soll Neukunden mit hohem Unfallrisiko ermitteln. Kundeninformationen (persönliche Merkmale, Automodell, Unfallhistorie), die zum Vertragsabschluss zur Verfügung stehen, werden dazu bewertet. Neukunden können damit in die richtige Schadensstufe eingeteilt werden. Aus der Vergangenheit liegt eine Tabelle vor. Sie enthält die Kundenmerkmale zu Jahresbeginn, die Information zu welcher Schadensklasse der Kunde in diesem Jahr gehörte und eine Unfallstatistik. Anhand der Informationen aus dieser Tabelle wird dann ein Muster herausgelöst und das Berwertungsraster erzeugt. Es zeigt die Kunden, die aufgrund der Merkmale potentiell ein besonders hohes Risiko darstellen.