Data-mining: Unterschied zwischen den Versionen
(→data-mining & big data: Advertima) |
(→data-mining & big data: löschen von Link auf insde-it) |
||
(5 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 5: | Zeile 5: | ||
Viele Tools sind open-source und können zu Testzwecken oder eventuell auch mehr eingesetzt werden: [http://www.datamation.com/data-center/50-top-open-source-tools-for-big-data-1.html 50 open-source Tools für big data]. | Viele Tools sind open-source und können zu Testzwecken oder eventuell auch mehr eingesetzt werden: [http://www.datamation.com/data-center/50-top-open-source-tools-for-big-data-1.html 50 open-source Tools für big data]. | ||
− | Ein praktischer Einsatz von "meaning based search" wird mit dem Tool [https://www.microfocus.com/en-us/products/information-data-analytics-idol/overview IDOL] früher von Hewlett Packard jetzt von Microfocus möglich. | + | Ein praktischer Einsatz von "meaning based search" wird mit dem Tool [https://www.microfocus.com/en-us/products/information-data-analytics-idol/overview IDOL] früher von Hewlett Packard jetzt von Microfocus möglich. Warum auch kleinere und mittlere Firmen Interesse an diesen Technologien haben sollten wird deutlich, wenn man sich die Erfahrungen einer grösseren Firma anschaut, die sich heute intensiv mit den Informationen aus social media Plattformen beschäftigt: [http://www.tagesanzeiger.ch/wirtschaft/unternehmen-und-konjunktur/Nestles-Abwehr-gegen-Shitstorms/story/30642493 Nestlé. ] Aber auch bekannter Player auf dem Schweizer Markt sind aktiv: [http://www.srf.ch/wissen/big-data-das-grosse-vermessen/kaertchen-apps-und-kameras-der-kunde-im-visier Coop und Migros]. |
− | Je vernetzter die Daten sind und je mehr Verknüpfungen hergestellt werden können, um so wertvoller sind die Ergebnisse. Welche Verknüpfungen gemacht werden, wird unter anderem in | + | Je vernetzter die Daten sind und je mehr Verknüpfungen hergestellt werden können, um so wertvoller sind die Ergebnisse. Welche Verknüpfungen gemacht werden, wird unter anderem in einer Zusammenarbeit von Babbel und Facebook klar. |
Zwei Klassiker zum Thema data-mining findet man durch Eingabe der folgenden Begriffe in eine Suchmaschine: | Zwei Klassiker zum Thema data-mining findet man durch Eingabe der folgenden Begriffe in eine Suchmaschine: | ||
Zeile 15: | Zeile 15: | ||
Und hier noch ein paar relevante Links: | Und hier noch ein paar relevante Links: | ||
− | |||
* [[Data_Mining:_Analysemethoden_f%C3%BCr_Mustererkennung|Analysemethoden und_Mustererkennung]] TBZ-Wiki intern | * [[Data_Mining:_Analysemethoden_f%C3%BCr_Mustererkennung|Analysemethoden und_Mustererkennung]] TBZ-Wiki intern | ||
* [https://de.wikipedia.org/wiki/Viola-Jones-Methode Viola James Methode] zur Gesichtserkennung | * [https://de.wikipedia.org/wiki/Viola-Jones-Methode Viola James Methode] zur Gesichtserkennung | ||
* Microsofts [https://msdn.microsoft.com/en-us/library/ms167167.aspx Basic [Data Mining Tutorial] für SQL Server | * Microsofts [https://msdn.microsoft.com/en-us/library/ms167167.aspx Basic [Data Mining Tutorial] für SQL Server | ||
− | |||
* [https://advertima.com/de/ Advertima St. Gallen] | * [https://advertima.com/de/ Advertima St. Gallen] | ||
+ | * [https://pimeyes.com/en Facerecognition im Web] | ||
+ | * [https://www.nzz.ch/technologie/das-ende-der-anonymitaet-wie-pimeyes-wie-gesichtserkennung-unser-leben-veraendern-wird-gesichtserkennung-unsere-gesellschaft-fuer-immer-veraendern-koennte-ld.1698397?kid=nl101_2022-9-10&ga=1&mktcval=101&mktcid=nled PimEyes in der NZZ] | ||
+ | ---- | ||
+ | |||
+ | === Datenanonymisierung === | ||
+ | |||
+ | Open Data kann zu Widersprüchen bezüglich Datenschutz und Persönlichkeitsrechten stehen. Bei dem Bestreben personenbezogene Daten zu anonymisieren, muss aber sehr sorgfältig vorgegangen werden. AOL hat im Jahre 2006 einen sehr naiven Vorstoss gemacht und von ca. 600.000 Usern die Suchanfragen "anonymisiert" veröffentlicht. Nach kurzer Zeit wurden die Daten zwar von der Website wieder entfernt, aber die Daten waren natürlich schon verbreitet und sind bis heute verfügbar. | ||
+ | * [https://www.heise.de/newsticker/meldung/AOL-veroeffentlichte-Suchanfragen-von-ueber-500-000-Mitgliedern-149433.html Heise online AOL veröffentlicht Suchanfragen] | ||
+ | * [https://netzpolitik.org/2006/aol-veroeffentlicht-suchanfragen/ Netzpolitik.org] | ||
---- | ---- | ||
− | |||
=== NoSQL Begriffe === | === NoSQL Begriffe === | ||
Aktuelle Version vom 1. März 2024, 09:52 Uhr
data-mining & big data
Big data und data-mining sind zwei Schlagworte, die im Internet mittlerweile eine grosse Bedeutung haben. Neu sind sie aber nicht, denn die Verarbeitung grosser Datenmengen war schon immer ein Ziel des Computereinsatzes. Trotzdem ist es interessant in diesen Bereichen ein wenig hinter die Kulissen zu schauen und zu erkennen, was kommerzielle Unternehmen und staatliche Stellen (von mir aus auch Geheimdienste genannt) da treiben. Aber machen wir uns keine Hoffnungen, alles zu entdecken, denn vieles sind komplexe Anwendungen und Projekte, die viel Hintergrundwissen erfordern.
Viele Tools sind open-source und können zu Testzwecken oder eventuell auch mehr eingesetzt werden: 50 open-source Tools für big data.
Ein praktischer Einsatz von "meaning based search" wird mit dem Tool IDOL früher von Hewlett Packard jetzt von Microfocus möglich. Warum auch kleinere und mittlere Firmen Interesse an diesen Technologien haben sollten wird deutlich, wenn man sich die Erfahrungen einer grösseren Firma anschaut, die sich heute intensiv mit den Informationen aus social media Plattformen beschäftigt: Nestlé. Aber auch bekannter Player auf dem Schweizer Markt sind aktiv: Coop und Migros.
Je vernetzter die Daten sind und je mehr Verknüpfungen hergestellt werden können, um so wertvoller sind die Ergebnisse. Welche Verknüpfungen gemacht werden, wird unter anderem in einer Zusammenarbeit von Babbel und Facebook klar.
Zwei Klassiker zum Thema data-mining findet man durch Eingabe der folgenden Begriffe in eine Suchmaschine:
- Bier und Windeln
- teenage girl pregnant target
Wie realistisch die beiden Beispiele sind muss jeder für sich entscheiden.
Und hier noch ein paar relevante Links:
- Analysemethoden und_Mustererkennung TBZ-Wiki intern
- Viola James Methode zur Gesichtserkennung
- Microsofts Basic [Data Mining Tutorial für SQL Server
- Advertima St. Gallen
- Facerecognition im Web
- PimEyes in der NZZ
Datenanonymisierung
Open Data kann zu Widersprüchen bezüglich Datenschutz und Persönlichkeitsrechten stehen. Bei dem Bestreben personenbezogene Daten zu anonymisieren, muss aber sehr sorgfältig vorgegangen werden. AOL hat im Jahre 2006 einen sehr naiven Vorstoss gemacht und von ca. 600.000 Usern die Suchanfragen "anonymisiert" veröffentlicht. Nach kurzer Zeit wurden die Daten zwar von der Website wieder entfernt, aber die Daten waren natürlich schon verbreitet und sind bis heute verfügbar.
NoSQL Begriffe
- commodity hardware/SDN
- BASE eine Alternative zu ACID?
- CAP Theorem
- DB Ranking DB-Engines
- MapReduce von Google
- Knowledge Discovery in Databases (KDD) -> Wissensentdeckung in Datenbanken
- gute Übersicht (= die gezeigte Präsentation :-) ) Uni Leipzig
- ...
unabhängig davon: vagrant & docker