Montag, 4. Mai 2009

Google Flu: Ein kleiner Blick hinter die Kulissen

Google Flu ist ein Vorwarnsystem um mögliche Ausbrüche einer Grippe-Epedemie/Pandemie frühzeitig erkennbar zu machen.

In der engl. Wissenschaftszeitschrift „Nature“ wurde bereits vor einigen Monaten ein Artikel vom Google-Projekt-Team veröffentlicht, dass etwas mehr Hintergrundinformationen zu „Google Flu“ gibt.

Das Thema wird ja gerade von den Massenmedien – meiner Meinung nach in unvervantwortlicher Weise – mit der „Schweinegrippe“ bzw. „Mexicogrippe“ regelrecht ausgeschlachtet.

Leider sind nur sehr grobe Informationen von Google zu dem Prognose-/Früherkennungssystem veröffentlicht worden. Warum wird aber auch schnell klar ...

Google wertet aus seinen gespeicherten Logfiles, die u.a die genauen Suchbegriffe und die IP-Adresse des Suchenden beinhalten, die notwendigen Informationen aus.
Im Nature-Artikel und einer Beispieltabelle sieht man, dass Google z.Z. 45 verschiedene Parameter auswertet.

Als Parameter sind die Suchbegriffe z.B. einzelne Krankheitssymtome einer Grippe wichtig.
In der Tabelle habe ich auch einen Hinweis gefunden, dass man z.B. auch die Suche nach dem Begriff „Antibiotika“ heranzieht.
Man kann davon ausgehen, dass auch einzelne Medikamente /Produkte bzw. Wirkstoffe (Tamiflu) in die Auswertung mit einfließen.

Wichtig ist auch, dass unterschiedliche Schreibweisen und Schreibfehler in den Suchwörtern berücksichtigt werden müssen.
Man schaue sich nur mal die verschiedenen Schreibweisen/ -fehler für den Namen „Britney Spears“ an, die Google dazu einmal veröffentlicht hat:



Das Google die genauen Suchwörter nicht öffentlich zugänglich macht, ist sehr verständlich, da u.a. einige Leute dazu aufgerufen werden könnten, diese Begriffe manipulativ und ggf. automatisiert zu nutzen und das System damit „ungenau“ wird.

Weiterhin gibt es noch das Problem „Noise,Rauschen“. Die Massenmedien verursachen das zur Zeit.
Viele Leute suchen jetzt mit entsprechenden Suchwörtern die für Google Flu wichtig sind, OHNE das die Leute wirklich erkrankt sind!

Google Flu muss dies erkennen, berücksichtigen und ausfiltern können!

Der Medienhype zur Zeit, wird aber auch bestimmt wichtige und neue Erkenntnisse für die Google-Entwickler zur Verfeinerung des System bringen.
Wenn man sich die aktuellen Werte für die USA und neuerdings auch für Mexiko anschaut, scheint das System aber bereits jetzt schon sehr gut mit dem Problem umgehen zu können

Noch ein Wort zu den Logfiles.
Solche System lassen sich nur mit Original-/Echtdaten entwickeln.
Künstlich erzeugte Testdaten können nie die Realität so genau abbilden. Man braucht dazu – auch lange zurückreichende – Originaldaten. Nur damit kann man ein so wichtiges System entwickeln und verfeinern.
Auch wird bei Google Flu deutlich, warum man zur Standortbestimmung die IP-Adressen benötigt.

Wie sollte man sonst die Daten auf der Ebene von Bundesstaaten/-länder, Bezirke darstellen können?

Der Datenschutz ist heutzutage extrem wichtig. Aber man sollte das „Kind nicht mit dem Bade ausschütten“.
Ich glaube das „Google Flu“ ein gutes Beispiel darstellt und man auch eine zusätzliche Sichtweise - Pro und Contra der gespeicherten Nutzerdaten – wenigstens in Betracht ziehen sollte.

Noch etwas Allgemeines:
Ich bin der Meinung, dass man sich mit dem Thema „Vorhersage- /Trend- bzw. Prognosemodelle“ auch als Laie beschäftigen sollte.
Ob im Privatbereich, als Arbeitnehmer, Kleinunternehmer etc., das kann sehr fruchtbar sein.

Von Google würde ich mir eine umfangreiche aber dennoch leicht verständliche Anleitung („Best Practice“) für Nicht-Informatiker/- mathematiker bzw -statistiker zur eigenen Umsetzung wünschen.
Auch sollte Google APIs zur Datenabfrage diverser Dienste (Google Trends, Insight for Search usw.) anbieten. Besser als nur CSV-Dateien zum Download ;-).

Schade, Google Insight hatte ich schon mal mit den Möglichkeiten von Google Docs „geknackt“.
Leider hat Google dann nach ca. drei Monaten einige Änderungen vorgenommen und mein Trick funktionierte nicht mehr.
Irgendwann muss ich wohl mal in „Mountain View“ aufschlagen , sofern ich am Pförtner vorbeikomme *grins*.

Links zum Artikel von "Nature":

http://www.nature.com/nature/journal/vaop/ncurrent/full/nature07634.html

http://www.nature.com/nature/journal/vaop/ncurrent/extref/nature07634-s1.pdf


NoodleGei.blogspot.com

Ähnliche Beiträge zum Thema/Kategorie:



2 Kommentar(e) zum Beitrag:

Kessi hat gesagt…

Ich mag Google :-)!

Aber ich verfluche gerade mein Studium, weil ich das mit Phase 5 nicht richtig hinbekomme :(... schnief....

Hoffe, PC und Du sind wieder fit, ganz liebe Grüße und danke für die immer tollen News! :)

NoodleGei hat gesagt…

Leider noch nicht fit. Rechner ist immer noch nicht fertig, soll jetzt diese Woche fertig werden :(.
Auf einem schwächlichen 8-Zoll Netbook kann man auch nur im begrenzten Maß arbeiten.

Problem mit dem Editor oder mit HTML/CSS?

Kommentar veröffentlichen

Kommentare bitte fair und im rechtlich erlaubten Rahmen verfassen!
Die Kommentare und ggf. hinterlassene URLs werden von mir überprüft. Kommentare die für blaue Pillchen, Glücksspiele, bestimmte Bilder/Videos, Abzocker-Dienste usw. werben, werden gelöscht.

Kommentare von SEO-Link-Builder sind ebenso unerwünscht!

In den Kommentare können die HTML-Tags für:
kursiv = <i>Testwort</i>
fett = <b>Testwort</b>
Links = <a href="http://www.deineURL.de/">Link Text</a>
genutzt werden. Einfach die o.g. Beispiele kopieren und mit den eigenen Werten ersetzen.

  © Blogger template Columnus by Ourblogtemplates.com 2008

Back to TOP