Data-mining

Aus TBZ_-_Wiki
Wechseln zu:Navigation, Suche

data-mining & big data

Big data und data-mining sind zwei Schlagworte, die im Internet mittlerweile eine grosse Bedeutung haben. Neu sind sie aber nicht, denn die Verarbeitung grosser Datenmengen war schon immer ein Ziel des Computereinsatzes. Trotzdem ist es interessant in diesen Bereichen ein wenig hinter die Kulissen zu schauen und zu erkennen, was kommerzielle Unternehmen und staatliche Stellen (von mir aus auch Geheimdienste genannt) da treiben. Aber machen wir uns keine Hoffnungen, alles zu entdecken, denn vieles sind komplexe Anwendungen und Projekte, die viel Hintergrundwissen erfordern.

Viele Tools sind open-source und können zu Testzwecken oder eventuell auch mehr eingesetzt werden: 50 open-source Tools für big data.

Ein praktischer Einsatz von "meaning based search" wird mit dem Tool IDOL früher von Hewlett Packard jetzt von Microfocus möglich. Warum auch kleinere und mittlere Firmen Interesse an diesen Technologien haben sollten wird deutlich, wenn man sich die Erfahrungen einer grösseren Firma anschaut, die sich heute intensiv mit den Informationen aus social media Plattformen beschäftigt: Nestlé. Aber auch bekannter Player auf dem Schweizer Markt sind aktiv: Coop und Migros.

Je vernetzter die Daten sind und je mehr Verknüpfungen hergestellt werden können, um so wertvoller sind die Ergebnisse. Welche Verknüpfungen gemacht werden, wird unter anderem in einer Zusammenarbeit von Babbel und Facebook klar.

Zwei Klassiker zum Thema data-mining findet man durch Eingabe der folgenden Begriffe in eine Suchmaschine:

  • Bier und Windeln
  • teenage girl pregnant target

Wie realistisch die beiden Beispiele sind muss jeder für sich entscheiden.

Und hier noch ein paar relevante Links:


Datenanonymisierung

Open Data kann zu Widersprüchen bezüglich Datenschutz und Persönlichkeitsrechten stehen. Bei dem Bestreben personenbezogene Daten zu anonymisieren, muss aber sehr sorgfältig vorgegangen werden. AOL hat im Jahre 2006 einen sehr naiven Vorstoss gemacht und von ca. 600.000 Usern die Suchanfragen "anonymisiert" veröffentlicht. Nach kurzer Zeit wurden die Daten zwar von der Website wieder entfernt, aber die Daten waren natürlich schon verbreitet und sind bis heute verfügbar.


NoSQL Begriffe

  • commodity hardware/SDN
  • BASE eine Alternative zu ACID?
  • CAP Theorem
  • DB Ranking DB-Engines
  • MapReduce von Google
  • Knowledge Discovery in Databases (KDD) -> Wissensentdeckung in Datenbanken
  • gute Übersicht (= die gezeigte Präsentation :-) ) Uni Leipzig
  • ...


unabhängig davon: vagrant & docker