Sonntag, 8. August 2010

Google Sets mit Google Spreadsheet und der ImportHTML-Funktion abfragen

Angeregt durch einen Forschungartikel der britischen University of Bristol (Twitter Flu-Tracker, dazu später mehr) möchte ich kurz die Google Sets besprechen.
Link: http://labs.google.com/sets

Die Google Sets - eines der ersten Goolge Labs-Tools überhaupt (2002) - ermöglichen es, zu den eingegebenen Beispielbegriffen (maximal 5 Begriffe) thematisch relevante Rückgabewerte auszugeben.
Soweit ich das aus dem Patent herauslesen konnte, werden die Daten aus gecrawlten Websites extrahiert, deren Daten in sortierten und unsortierten HTML-Listen (mit UL und OL HTML-Tags versehen, wie man sie auch im Blogger-Editor zur Verfügung hat) veröffentlicht wurden.

Google Sets


Dazu kommt bei den Google Sets auch noch ein Ranking-Faktor für die Ausgabe-/ Rückgabeergebnisse der Sets ins Spiel. 
Ein Screenshot mit den Suchbegriffen zu den Künstlern Pablo Picaso und Henri Matisse:
Google Sets
Der Beispiellink mit den Begriffen "Pablo Picaso und Henri Matisse".

Um mal wieder Google Docs - mein "Schweizer Messer" und Allzweck-Tool - zu beschäftigen, beschreibe ich kurz, wie man mit einem Google Spreadsheet die Google Sets nutzen kann.
Leider bieten die Google Sets keine eigenständige API (Programmierschnittstelle).



Zuerst ein Screenshot der Beispiel-Tabelle, die gelb unterlegten Abfragebegriffe (A2-A6) zum Thema Mode-Labels (Hugo Boss, Gucci, Dior, Prada und Vuitton):

Google Docs und Google Sets

Da man bis zu fünf Begriffe in den Google Sets eingeben kann, habe ich mehrere Ergebnisspalten angelegt.

Die Tabellenspalte B nimmt als Eingabewert nur den ersten Begriff (aus A2), die Spalte C nimmt als Eingabewerte die Begriffe aus den Zellen A2 und A3 usw.

Die letzte Spalte G zieht seine Eingabewerte automatisch aus den Ergebnissen der Spalte F (Zellen F40 bis F44) und soll nur als ein erweitertes Beispiel dienen.
Nicht vergessen, zur Zeit kann man nur bis zu 50 Import-Funktionen in einem Google Spreadsheet einfügen.

Nun zu den Formel, die in meiner Tabelle zum Einsatz kommen.
Als Eingabefelder für die gesuchten Begriffe werden die Zellen A2 bis A6 genutzt (gelb unterlegt).


Die ImportHTML-Funktion für die Spalte B kopiert man in Zelle B2 hinein:

=ImportHtml("http://labs.google.com/sets?hl=en&btn=Large+Set&q1="&A2;"table";3)

In die Zelle C2:

=ImportHtml("http://labs.google.com/sets?hl=en&btn=Large+Set&q1="&A2 & "&q2="&A3;"table";3)

In Zelle D2:

=ImportHtml("http://labs.google.com/sets?hl=en&btn=Large+Set&q1="&A2 & "&q2="&A3 & "&q3="&A4;"table";3)

In Zelle E2:

=ImportHtml("http://labs.google.com/sets?hl=en&btn=Large+Set&q1="&A2 & "&q2="&A3 & "&q3="&A4 & "&q4="&A5;"table";3)

In Zelle F2 (nun werden alle 5 Begriffe genutzt):

=ImportHtml("http://labs.google.com/sets?hl=en&btn=Large+Set&q1="&A2 & "&q2="&A3 & "&q3="&A4 & "&q4="&A5 & "&q5="&A6;"table";3)

Und in Zelle G2 (nutzt ja die Ergebnisse aus der Spalte F):

=ImportHtml("http://labs.google.com/sets?hl=en&btn=Large+Set&q1="&F40 & "&q2="&F41& "&q3="&F42 & "&q4="&F43 & "&q5="&F44;"table";3)

Falls in der Spalte F nicht genügend Rückgabewerte ausgegeben werden, bleibt die Spalte G allerdings leer.
Man kann wie in der letzten ImportHTML-Formel zu sehen ist, auch den Bezug auf die Zellen &F40 bis &F44 auch manuell auf z.B. &F10 bis &F14 abändern.

Der Abfrage-Parameter der Google Sets ist in der URL mit dem Kürzel &q1 bis &q5 bezeichnet.
Diesen Parametern wird jetzt mit &Zellenname (z.B. &F44) der Eingabewert zugeordnet.

In der Spalte A habe ich weitere Abfrage-Begriffe aus anderen Themengebiete eingetragen, diese kopiere ich dann in einem Zug in die Zellen A2 - A6.
Der Grund ist, wenn die Begriffe einzeln eingeben werden, wird nach jedem Eintrag die Tabelle neu berechnet bzw. die Import-Funktionen aktualisieren sich automatisch.

Ein Beispiel wie man im wissenschaftlichen Bereich die Google Sets nutzen kann, ist der bereits oben erwähnte Twitter Flu-Tracker.

Da man genau wie beim Google Flu-Tracker, einen sehr großen Satz an Begriffen rund um das Gesundheitsthema Grippe benötigt - um ein Frühwarnsystem aufgrund von Google-Suchanfragen bzw. Twitter-Tweets - zu betreiben, haben die Forscher aus Bristol unter anderem die Google Sets zu Ermittlung von Begriffen genutzt.


Zitat: aus einem PDF (Flu detector - Tracking epidemics on Twitter von Vasileios Lampos, Tijl De Bie, und Nello Cristianini  vom Intelligent Systems Laboratory, University of Bristol, UK):
We start by creating a pool of candidate features by using encyclopedic and informal references related to influenza as well as some flu-related word clusters created by Google Sets.


Ein eigenes Blogpost "Google Flu und kleiner Blick hinter die Kulissen" hatte ich vor über einem Jahr veröffentlicht und beschäftigte sich u.a. auch mit dem Thema der relevanten Begriffe zur Filterung.
An die Möglichkeit der Nutzung von Google Sets, hatte ich aber nicht gedacht ;-).

Rund um das eigene Blog, ist die Arbeit mit Google Docs (nennt sich ja im deutschsprachigen Raum Text und Tabellen) auch ganz fruchtbar. Einige kleinere Beispiele werde ich in Zukunft noch beschreiben.
Link: http://docs.google.com

NoodleGei.blogspot.com

Ähnliche Beiträge zum Thema/Kategorie:



1 Kommentar(e) zum Beitrag:

FONTY hat gesagt…

hello my friend! warm greeting ^^!
your blog looks nice 0_0

by the way,
if you need to find unique fonts, you can go to our website.

best regards;

Kommentar veröffentlichen

Kommentare bitte fair und im rechtlich erlaubten Rahmen verfassen!
Die Kommentare und ggf. hinterlassene URLs werden von mir überprüft. Kommentare die für blaue Pillchen, Glücksspiele, bestimmte Bilder/Videos, Abzocker-Dienste usw. werben, werden gelöscht.

Kommentare von SEO-Link-Builder sind ebenso unerwünscht!

In den Kommentare können die HTML-Tags für:
kursiv = <i>Testwort</i>
fett = <b>Testwort</b>
Links = <a href="http://www.deineURL.de/">Link Text</a>
genutzt werden. Einfach die o.g. Beispiele kopieren und mit den eigenen Werten ersetzen.

  © Blogger template Columnus by Ourblogtemplates.com 2008

Back to TOP