Donnerstag, 11. November 2010

Google Refine: Tool zur Bereinigung, Erweiterung und Export von Datenbeständen

Google Refine ist ein Open-Source-Tool mit dem man umfangreiche Datenbestände (Datasets) bereinigen, erweitern und exportieren kann.
Ursprünglich basiert Google Refine auf dem Tool Freebase Gridwork und wurde nach dem Kauf von Metaweb/Freebase durch Google erweitert und nun neu veröffentlicht. Freebase bietet (englischsprachige) struktuierte Datenbanken an und basiert zum Teil auf Informationen von Wikipedia, jedoch bietet Feebase erweiterte semantische Such- und Abfragemöglichkeiten, diverse Anzeigemöglichkeiten und Entwickler-Tools.

Da es im Web auch viele öffentliche Daten gibt, die auch als CSV/TSV-Dateien heruntergeladen werden können, wird Refine u.a. eingesetzt, wenn es mit der Datenbasis an einigen Stellen Probleme gibt.
Zum Beispiel werden Datenzeilen mit einer Spalte versehen, die eine Zuordnung sicherstellen sollen, damit man die Daten nach diesen Zuordnungen sortieren bzw. filtern kann.



Einfaches Beispiel: Ein CSV-Datei enthält alle wichtigen Daten von  Profisportlern (weltweit). Eine Spalte wird für die Nationälität des einzelnen Sportler genutzt. Die Angaben/Zuordnungen sind jedoch nicht einheitlich gehalten, mal steht: US, U.S.A, United States, GER, Ger, Germany oder am Anfang bzw. am Ende der Nationalität sind unbeabsichtigt Leerstellen enthalten usw.

Ein sortieren bzw filtern nach der Nationalität ist damit nur noch sehr schwierig möglich. Ein englischsprachiges Video zeigt einige verschiedene Lösungsansätze, wie man mit Google Refine solche Problemfälle bereinigt:



Das nächste Video zeigt, wie man mit Google Refine diverse Datentransformationen durchführt, z.B. Daten die in einer HTML-Liste (sortierte, unsortierte Aufzählungsliste) vorhanden sind, jedoch in eine HTML-Tabelle umgewandelt werden muss, da man dieses Format zur Weiterverarbeitung benötigt:





Im letzten Video wird gezeigt, wie man vorhandene Daten durch den Einsatz von externen Webservices erweitert, z.B. die Daten enthalten Adressen zu diversen Firmen. Nun sollen jedoch zusätzlich die Längen- und Breitengrade zu den Adressen automatisch ermittelt werden (im Beispiel über Google Maps realisiert) und im Dataset hinterlegt werden, hierbei kommt auch die Google Refine Expression Language (GREL) zum Einsatz:



Es sind also sehr viele Möglichenkeiten - in den Dokumentationen werden noch zusätzliche Features beschrieben -  zur Bearbeitung von großen, umfangreichen Datenbeständen mit Google Refine möglich.

Der Link zu Google Refine.

NoodleGei.blogspot.com

Ähnliche Beiträge zum Thema/Kategorie:



0 Kommentar(e) zum Beitrag:

Kommentar veröffentlichen

Kommentare bitte fair und im rechtlich erlaubten Rahmen verfassen!
Die Kommentare und ggf. hinterlassene URLs werden von mir überprüft. Kommentare die für blaue Pillchen, Glücksspiele, bestimmte Bilder/Videos, Abzocker-Dienste usw. werben, werden gelöscht.

Kommentare von SEO-Link-Builder sind ebenso unerwünscht!

In den Kommentare können die HTML-Tags für:
kursiv = <i>Testwort</i>
fett = <b>Testwort</b>
Links = <a href="http://www.deineURL.de/">Link Text</a>
genutzt werden. Einfach die o.g. Beispiele kopieren und mit den eigenen Werten ersetzen.

  © Blogger template Columnus by Ourblogtemplates.com 2008

Back to TOP