Data Mining

  • Drucken

Data Mining Hintergrund

Daten sind heutzutage auf elektronischem Weg leicht zu erfassen und können mit geringen Kosten gespeichert werden. Die Informationsgesellschaft (gab es je eine Gesellschaftsform, die ohne Informationsaustausch funktioniert hätte?) erlebt, wie diese Datensammlungen mit großer Geschwindigkeit an Umfang und Komplexität zunehmen.


Gleichzeitig stellen wir fest, daß unsere technischen Möglichkeiten, die einmal gesammelten Daten zu verstehen und auszuwerten, nur sehr schwer mit dem Anwachsen des Datenbestands Schritt halten können. Klassische Verfahren sind dabei oft überfordert, oder kommen nur dann zum Ziel, wenn sie in Kombination - angepaßt auf die spezifische Fragestellung - zum Einsatz kommen.

Bereits während des Zusammentragens solcher Datenbestände stellt sich in sehr vielen Fällen die Frage: welche Informationen verbergen sich (möglicherweise) in diesen Daten, wie gewinnen wir sie, wie können wir sie als Entscheidungsgrundlage nutzen?

Ziele des Data Mining

Das Gebiet des Data Minings etabliert sich als neues, eigenständiges Forschungsgebiet und findet Anwendung in der Forschung und Entwicklung, der Medizin, dem Geschäftsleben, der Aus- und Weiterbildung u. v. m. Data Mining versucht, durch Formulierung, Analyse und Implementation grundlegender Annahmen und Ableitungen Informationen und Wissen aus unstrukturierten Daten zu gewinnen. Data Mining extrahiert Muster, Veränderungen, Assoziationen, und Anomalien aus (großen) Datensätzen. Zahlreiche etablierte Forschungsrichtungen tragen zur Entwicklung des Data Mining bei, u. a. die klassische Statistik, Datenbanken, Maschinenlernen, Visualisierung und Grafik, Optimierung, Numerische Mathematik bzw. Physik.

Herausforderungen

Die Menge elektronisch gespeicherter Daten ist in den letzten Jahren explosionsartig angestiegen, während die Zahl der Wissenschaftler, Ingenieure und Analysten, die sich mit der Analyse dieser Daten beschäftigen, weitgehend konstant geblieben ist. Um diese sich immer weiter auftuende Lücke zu schließen, werden die folgenden neuen Forschungsthemen bearbeitet:

  • Entwicklung von Algorithmen und Verfahren, um große, komplexe und hochdimensionale Datensätze zu untersuchen,
  • Entwicklung von Algorithmen, um neue Datentypen zu untersuchen,
  • Entwicklung von Algorithmen, Verfahren und Infrastrukturen, um verteilte Datensätze zu untersuchen,
  • Verbesserung der Benutzerfreundlichkeitvon Data Mining Systemen,
  • Entwicklung angepaßter Sicherheits- und Vertraulichkeitsmodelle und -verfahren für solche Data Mining Prozesse.

Was ist Data Mining?

Data Mining unterscheidet sich von traditioneller Statistik in mehrerer Weise.

Die klassische Statistik geht von Annahmen aus, die als Hypothesen formuliert und mit den Daten validiert werden. Im Gegensatz dazu versucht Data Minng Muster und Hypothesen (automatisch) aus dem vorhandenen Datenbestand zu extrahieren. Man könnte sagen, daß die Statistik von den Menschen, Data Minnig von den Daten gelenkt wird. Data Mining unterscheidet sich auch dadurch von der klassischen Statistik, daß in den meisten Fällen das Ziel darin besteht, qualitative Modelle abzuleiten, die in logische Regel bzw. grafische Darstellungen umgesetzt werden können. Data Mining ist in diesem Sinn wesentlich besser auf den Menschen zugeschnitten, als dies für die Statistik der Fall ist.


Anwendungen

Die Entwicklungen auf dem Gebiet Data Mining werden zum großen Teil durch neue Anwendungen forciert, die neue, derzeit noch nicht im gewünschten Umfang verfügbare Fähigkeiten der aktuellen Technologien erfordern. Diese Anwendungen lassen sich gut in vier unterschiedliche Gruppen einteilen.

  • Geschäftliche (vor allem E-Commerce) Daten,
  • Daten aus den Bereichen Forschung und Entwicklung sowie dem Gesundheitswesen,
  • Web-(Transaktions-)Daten,
  • Daten aus dem rapide wachsenden Gebiet der Sensorik.

Trends

Mehrere fundamentale Trends scheinen grundlegende Auswirkungen auf weitere Entwicklungen zum Thema Data Mining zu haben.

  • Datentrends: der wahrscheinlich einflußreichste Trends wird durch das bereits erwähnte explosionsartige Anwachsen des Datenvolumens um viele Größenordnungen verursacht. Gleichzeitig ist die Zahl der Absolventen mit naturwissenschaftlich-technischer Ausbildung im wesentlichen konstant geblieben. Dies Tatsache läßt nur einen Schluß zu: entweder verbleibt der Großteil der aufgezeichneten Daten auf ihren Festplatten, CDs und Magnetbändern ohne jemals wieder untersucht zu werden; oder neue Techniken und Verfahren - wie Data Mining - sind in der Lage, den Vorgang der Extraktion, Filterung und Analyse der Daten wenigstens zum Teil zu automatisieren, um daraus Wissen für Entscheidungen zu gewinnen.
  • Hardwaretrends: Der Prozess des Data Mining bringt numerische und statistische Berechnungen mit großen Datensätzen mit sich. Sowohl die technische, als auch die preisliche Entwicklung von gängiger Hardware ermöglicht es, inzwischen Datensätze zu untersuchen, die von ihrem Umfang her noch vor wenigen Jahren nicht hätten untersucht werden können. Wie es scheint, wird sich dieser Trend in den nächsten Jahren fortsetzen.
  • Netzwerktrends: die mit Hilfe des Internets realisierbaren Übertragungsgeschwindigkeiten wachsen beständig, wobei sowohl die Bandbreite der Netze, als auch die der Endgeräte sich proportional entwickelt. Wie bei der übrigen Hardware gilt auch hier, daß die damit verbundenen Kosten nicht proportional ansteigen, sondern vielmehr - auf eine bestimmte Bandbreite bezogen - beständig sinken. Damit wird es möglich, auch verteilte Datensätze, die auf unterschiedlichen Rechnern gehalten werden, mit der vorhandenen Technik zu untersuchen.
  • Trends auf dem Gebiet des wissenschaftlichen Rechnens: Wissenschaftler und Ingenieure sehen heute die Simulation neben Theorie und Experiment als drittes Standbein jeder Forschung und Entwicklung an. Dabei spielt Data Mining eine wichtige Rolle als Verbindungsglied, besonders in den Fällen, wo Experiment oder Simulation sehr große Datensätze als Ergebnis haben.
  • Geschäftliche Trends: alle geschäftlichen Aktivitäten in unserer Zeit stehen unter dem Druck, profitabler und reaktionsschneller zu sein und gleichzeitig besseren service zu bieten als jemals zuvor. Dabei sollen zusätzlich weniger Mitarbeiter zu geringeren Kosten eingesetzt werden. Unter diesen Erwartungen und Zwängen wird sich Data Mining als grundlegende Technologie etablieren, die es ermöglicht, Chancen und Risiken von Transaktionen mit Kunden und Lieferanten genauer als bisher einzuschätzen.


Data Mining Methoden

Mehrere Methoden konkurrieren unter dem Oberbegriff Data Mining um ihren Einsatz. Jede einzelne dieser Technologien hat spezifische Vor- und Nachteile; keine ist in der Lage, alle Bedürfnisse in allen Anwendungsfeldern abzudecken. Die Auswahl der besten Technologien für die Mehrzahl der geplanten Anwendungen ist damit der beste Weg, um Ergebnisse zu erzielen (abgesehen von der Möglichkeit, sogenannte Data Mining Suites einzusetzen, die mehrere Methoden unter einer gemeinsamen Oberfläche vereinen). Die Mehtoden werden im folgenden zusammen mit möglichen Einsatzgebieten vorgestellt Neuronale Netze

Der Einsatz von neuronalen Netzen bietet wahrscheinlich die umfangreichsten Analysemöglichkeiten, ist jedoch nur sehr schwer verständlich zu machen. Neuronale Netze versuchen, durch ihren Aufbau interne Strukturen der Daten wiederzu- geben, ohne jedoch diese Strukturen dem Anwender zu erläutern. Mit neuronalen netzen wird der Miningvorgang deswegen in einer "Black Box" abgewickelt. Die Entschei- dungen werden also in der "Black Box" getroffen, und können zwar überprüft, müssen aber ohne Erklärung akzeptiert werden. Anwendungen, bei denen getroffene Entscheidungen andere als empirische Rechtfertigungen verlangen, fallen damit für den Einsatz von neuronalen Netzen häufig aus.

Klassifikation und Entscheidungsbäume

Mit regelbasierten Systemen wird versucht, in den Daten enthaltene Trends (bzw. Häufungen) durch allgemeine Regeln zu beschreiben. Wie bei neuronalen Netzen wird auch hier der überwiegende Anteil des Miningvorgangs durch den Computer bewältigt. Entscheidungen lassen sich mit regelbasierten Systemen sehr einfach begründen, wobei mit Entscheidungsbäumen zusätzlich eine Rangfolge (Wichtung) unter den abgeleiteten Regeln möglich ist. Damit wird dem Anwender die zuzusätzliche Möglichkeit eröffnet, zwischen groben und feinen Unterteilungen seines Datenbestands zu unterscheiden.

Klassische Statistik, Zeitreihenanalyse

Die klassische Statistik ist die älteste aller Data Mining Technologien, und stellt auch jetzt noch in vielen Fällen die Grundlage aller weiteren Verfahren dar. Statistische Verfahren bedingen eine ständige Interaktion zwischen Anwender und Computer, und erfordern deswegen gut ausgebildete Ingenieure. Auch die Interpretation der Ergebnisse setzt in jedem Fall spezialisierte Kenntnisse voraus.

Die Zeitreihenanalyse stellt einen sehr speziellen Bereich der statistischen Analyse dar. In vielen Fällen wird sie mit der (Zeitreihen-) Vorhersage verwechselt, die - wenn auch in der Regel mit geringerer Zuverlässigkeit - mit anderen Methoden ebenso durchgeführt werden kann.

Visualisierung

Unter dem Begriff Visualisierung wird einerseits der Einsatz komplexer Tools verstanden, andererseits ebenso die Anwendung einfacher Darstellungsmöglichkeiten. Aus diesem Grund ist im Detail zu hinterfragen, welche Möglichkeiten im Einzelfall zum Einsatz kommen. Mit Visualisierungsverfahren werden die Daten in jedem Fall relativ zu spezifischen Dimensionen dargestellt. Bis auf grundlegende statistische bzw. ordnende Operationen werden in der Regel keine weiteren Verfahren angewandt. Die Analyse erfolgt während der Betrachtung der Daten, indem das verwendete Tool benutzt wird, um unterschiedliche Betrachtungswinkel zu selektieren bzw. andere Dimensionen darzustellen.


 

Data Mining Vorgehensmodell

Der 0 Schritt: Hintergrund

Eine kleine Einleitung zum Thema mit dem Ziel, Chancen und Möglichkeiten des Data Mining zu verdeutlichen.


 

Der 1 Schritt: Business verstehen - Nur was beschrieben ist, kann auf seine Zielerreichung überprüft werden

Natürlich ist es zunächst einmal erforderlich, überhaupt zu wissen, woran man ist. Aus diesem Grund stehen eine verbale Situationsbeschreibung des zu analysierenden Vorgangs, die Umsetzung dieser Beschreibung in einen Prozess (mit welcher Methode auch immer), die schriftliche Zieldefinition sowie ein knapper Projektplan immer an erster Stelle.


Business verstehen

 

 

 

 

 

 

 

 

 

 

 

Was ist zu tun?

  • Unternehmensziele definieren
  • Geschäftsbereiche benennen
  • Handlungen in Geschäftsprozesse zerlegen
  • Geschäftsprozesse beschreiben
  • Prozesse analysieren (z. B. SWOT)
  • Prozesse optimieren
  • Innovationsverhalten testen

 

Der 2 Schritt: Daten verstehen - Nur was verstanden ist, kann auf seine Sinnhaftigkeit und Vollständigkeit überprüft werden

Nun geht es darum, die erforderlichen Daten zu sammeln (ev. aus unterschiedlichen Quellen), die Daten zu charakterisieren, und festzulegen, wie der Vorgang der Datenerfassung wiederholt werden kann. Damit Sie morgen noch wissen, was Sie heute getan haben.

 

 

Daten verstehen















 

Was ist zu tun?

  • Notwenige Daten sammeln
  • Daten untersuchen
  • Daten beschreiben
  • Daten erkunden
  • Daten verifizieren
  • Explorative Datenanalyse durchführen
  • Dokumente beschreiben

 

Der 3 Schritt: Datenquellen vorbereiten - Nur was vorbereitet ist, kann analysiert werden

Hier werden Zeiträume festgelegt, Ausreißer ermittelt, ev. kategorische Daten in numerische umgewandelt (sofern wegen der Analysemethode notwendig), Lücken gefüllt, Daten integriert (nicht nur im mathematischen Sinn) und für die Weiterverwendung durch die nachfolgende Analyse formatiert. Eigentlich der wichtigste Schritt der Aufgabe; Sie wissen schon:

Unsinn rein > Unsinn raus.

 

Datenquellen vorbereiten

 

 

 

 

 

 

 

 

 

 

 

Was ist zu tun?

  • Notwendige Daten feststellen
  • auf fehlende / fehlerhafte Werte prüfen
  • Daten konstruieren oder zusammenfassen
  • Daten hinzuziehen
  • Daten transformieren
  • Daten formatieren

 

Der 4 Schritt: Lösung modellieren - Nur was modelliert ist, kann berücksichtigt werden

Natürlich ist es möglich, sich durch moderne Analysemethoden dabei helfen zu lassen, verborgene Gesetzmäßigkeiten in Datensätzen aufzufinden. In vielen Fällen hat man jedoch bestimmte Vorstellungen davon, welche Antworten einem weiterhelfen. In beiden Fällen benutzt man die im vorangegangenen Schritt gereinigten Daten, um die als geeignet eingestufte Analysemethode im Rahmen eines Tests mit den Daten zu füttern. Für die Beurteilung des Ergebnisses helfen grafische Darstellungen sehr viel weiter. Die Interpretation des Ergebnisses ist dann unter Umständen nochmals zeitintensiv.

 

Lösung modellieren

 

 

 

 

 

 

 

 

 

 

 

Beispiele

  • Exploratorische Datenanalyse: stellt im wesentlichen nur (intelligent) dar, ohne die Daten selbst zu beeinflussen
  • OLAP: ermöglicht es, innerhalb der Daten vom Allgemeinen zum Detail und umgekehrt zu „wandern“ (wird oft als fälschlicherweise als Data Mining bezeichnet)
  • Data Mining: geht von den Daten selbst aus und versucht, in diesen Muster zu erkennen

 

Der 5 Schritt: Lösung evaluieren - Nur was evaluiert ist, kann bewertet werden

Ist das Ergebnis verträglich mit Ihren bisherigen Kenntnissen und Erfahrungen? Läßt es sich sicher reproduzieren, oder ist es nur ein Teilergebnis, weil temporär oder regional gültig? Dies sind einige der Aufgaben des fünften Schritts. Unter Umständen haben Sie bereits jetzt festgestellt, daß der untersuchte Prozess besser und/oder anders ablaufen sollte. Wahrscheinlich stoßen Sie mit Hilfe der erhaltenen Antworten auch auf neue Fragen.

 

Lösung evaluieren

 

 

 

 

 

 

 

 

 

 

 

Was ist zu tun?

  • Trainieren und Testen
  • Performance vorhersagen
  • Kreuzvalidierung
  • Anfälligkeitstest
  • Verfahrensvergleich
  • Lift Chart
  • ROC-Kurven (receiver operation characteristic)

 

Der 6 Schritt: Lösung anwenden - Nur was angewendet wird, kann Ergebnisse liefern

Um die Data Mining Ergebnisse im Tagesgeschäft anzuwenden, wird in diesem Arbeitsschritt ein Plan entwickelt, um den Miningvorgang durchzuführen, zu überwachen und zu pflegen. Zusätzlich wird ein Abschlußbericht (als Nachweis der durchgeführten Tätigkeiten) sowie ev. ein Erfahrungsbericht (als Grundlage zukünftiger Verbesserungen) erstellt.

 

Lösung anwenden

 

 

 

 

 

 

 

 

 

 

 

Was ist zu tun?

 

  • Lösung (parallel) zu vorhandenen Analysen in das Tagesgeschäft einbeziehen
  • Lösung einüben, und nachvollziehbar machen
  • Lösung als Ausgangspunkt weiterer Verbesserungen ansehen

 

Der 7 Schritt: 10 goldene Regeln - Eine kurze Zusammenfassung des Ganzen als Gedächtnisstütze.

  • Klar umrissene Probleme definieren, deren Lösungen einen Nutzen versprechen
  • Die Lösung festlegen
  • Festlegen, wie die Lösung benutzt wird
  • Soviel wie möglich vom Problem verstehen
  • Annahmen über die Daten vereinbaren
  • Das Problem das Verfahren bestimmen lassen
  • Das Modell iterativ verbessern
  • Das Modell so einfach wie möglich machen
  • Instabile Gebiete im Modell erkennen (d. h. kleine Ursache, große Wirkung)
  • Unsichere Gebiete im Modell erkennen (d. h. Gebiete mit geringer Zuverlässigkeit)

 

Interessiert?  Kontakt

Übersicht?      Neue Prozesse