Data Mining

Ein White-Box Tutorial

Statt Anwenderpakete ohne Hintergrundwissen zu verwenden (Black-Box), die oft zu Trugschlüssen führen, wirst du Algorithmen und Python einsetzen (White-Box), die du auf grosse Datenmengen anwendest, um daraus neues Wissen zu generieren.

mining4

Die Beispielprogramme laufen unter Python2.7 (mit dem Grafikmodul PyQT4 und gpanel.py) oder TigerJython. Sie können von hier heruntergeladen werden.


 

Was ist Data Mining?

 

Data Mining beschäftigt sich damit, mit Hilfe des Computers in einer grossen Datenmenge mit Hilfe des Computers nach wertvollen Informationen, Mustern und Trends zu suchen. Dabei werden Verfahren entwickelt, um durch Strukturierung und Klassifizierung mit grossen Datenmengen effizient umzugeben. Data Mining beschäftigt sich auch damit, auf Grund der vorhandenen Daten Prognosen für die Zukunft zu machen.


 

Data Mining und Big Data

 

Grosse Internet-Konzerne wie Google und Facebook, die neuen Megareichen vom Silicon Valley, sind Meister im Sammeln und Benutzen von Webdaten. Sie verwenden die grosse Menge an gesammelten Daten (Big Data) aus Webabfragen, Posts und Hashtags, um Werbungen entsprechend zu plazieren und Werbeeinnahmen zu generieren. Aber nicht nur die Wirtschaft ist von Big Data betroffen, sondern jeder einzelne bei Werbung jeder Art, etwa im Zusammenhang mit Warenkäufen, aber auch bei politischen Entscheidungsprozessen (Abstimmungen und Wahlen). Es ist deshalb nicht verwunderlich, dass am World Economic Forum 2012 in Davos Big Data ein zentrales Thema war. Neuerdings werden Daten und die daraus extrahierten Informationen als neues Wirtschaftsgut wie Devisen oder Gold gehandelt. Daten sind der Rohstoff der Zukunft!


 

Data Mining und dein Privatleben

 

Bei deinen Reisen auf dem Internet hinterlässt du immer wieder "Datenspuren", die von Computern erfasst und gezielt gesammelt werden. Du musst davon ausgehen, dass diese Daten mit Verfahren des Data Mining untersucht und wiederverwendet werden. Du bist also von Data Mining und Big Data im täglichen Leben unmittelbar betroffen.


 

Data Mining und Machine Learning

 

Gesammelte Daten können auch dazu verwendet werden, ein Computerprogramm "intelligent" zu machen. Die Ausgaben des Computers können einem Erfolgstest unterzogen werden und das Programm kann auf Grund seiner Erfolge und Misserfolge sein Verhalten automatisch zu verändern, um die Erfolgswahrscheinlichkeit zu vergrössern. Man spricht in diesem Fall von maschinellem Lernen (machine learning).

Solche "Expertensysteme" können beispielsweise komplexe Muster (Handschriften, Sprache, Gesichter, Landschaften) erkennen, selbstfahrende Autos steuern und medizinische Diagnosen erstellen. Manchmal spricht in diesem Zusammenhang auch von "Künstlicher Intelligenz".