Mittwoch, 22. Dezember 2010

Google Ngram Viewer: Tool zur Analyse von eingescannten Bücher aus der Google Buchsuche

Google hat vor einigen Tagen in seinen Labs, dass Tool "Google Ngram Viewer" veröffentlicht.

Mit den Ngram Viewer ist es möglich, aus den Texten von über 5 Millionen eingescannten Büchern, nach der Häufigkeit und der zeitlichen Verteilung von Begriffen in den gescannten Büchern zu suchen. Die Zielgruppe für den Ngram Viewer, ist das Umfeld der Sozial-/Geisteswissenschaften.

Beim Science Magazine gibt es ein Forschungspapier zum Google Ngram Viewer, der in Zusammenarbeit mit der Havard University entwickelt wurde:
 "Wir haben ein Corpus aus digitalisierten Texten zusammengestellt, das ungefähr vier Prozent aller gedruckten Bücher enthält. Durch die Analyse dieses Corpus können wir kulturelle Entwicklungen mit quantitativen Methoden untersuchen. Dabei konzentrieren wir uns auf sprachliche und kulturelle Phänomene, die sich in der englischen Sprache zwischen 1800 und 2000 widerspiegeln. Wir zeigen, wie dieser Ansatz Einblicke in die verschiedensten Forschungsgebiete gibt, zum Beispiel Lexikografie, die Entwicklung der Grammatik, das kollektive Gedächtnis, die Einführung von Technik, das Streben nach Ruhm und historische Seuchenforschung. 'Culturomics' erweitern die Grenzen der strikt quantitativen Analyse auf eine Reihe neuer Phänomene von den Sozial- bis hin zu den Geisteswissenschaften."



Beispiele: Die Häufigkeit für die Begriffe Fotografie vs. Photografie im deutschsprachigen Datenbestand und die Verteilung über die Zeitlinie.

Im Amerikanisch-Englischen Datenbestand zu einigen "außergewöhnlichen" Begriffen wie Atlantis, El Dorado,UFO und Aliens (der Begriff wird grundsätzlich für "Fremde", "fremdes" usw. genutzt, also nicht nur für E.T.), ergibt sich folgende Grafik:


Im deutschsprachigen Bestand ergibt die og. Abfrage folgende Verteilung:


Und falls einmal ein Fehler im Google Ngram Viewer auftreten sollte, erscheint folgende Fehlermeldung ;-).



Das System unterscheidet zwischen Groß- und Kleinschreibung und zusätzlich stehen die Daten auch für die unterschiedlichen Sprachen, als Download zur Verfügung.

Es ist dringend anzuraten, sich die englischsprachige FAQ anzuschauen, da dort einige Besonderheiten erläutert werden.
Beispielsweise gibt es bei der zeitlichen Einordnung, wann die Begriffe auftauchen, Probleme u.a. aufgrund mangelhafter Metadaten zu den Publikationen. Bestimmte Buchstaben wie das alte gedruckte "S" führt zum Teil im englischen Corpus zu Verwirrungen, aus dem verschnörkelten "S"(ähnlich dem "f") wird dann ein "F", "Suck") usw.

Link zum Google Ngram Viewer.

NoodleGei.blogspot.com

Ähnliche Beiträge zum Thema/Kategorie:



3 Kommentar(e) zum Beitrag:

Christina hat gesagt…

o_O Wow! Ein wirklich geniales Tool. Bin schon gespannt was man sonst alles heraus "lesen" kann. ;-)

NoodleGei hat gesagt…

Ich bin auch mal gespannt was in Zukunft, in den Händen von Fachleuten, dabei noch alles herausgefunden wird.

Habe gerade gesehen, dass ich nur bis zum Jahr 2000 selektiert habe. Die Daten gehen z.T. bis 2009.

Fotografie vs. Photographie (Deutsch) 1800-2008

frau hat gesagt…

Der sehr informative Artikel. Diese Informationen sehr nützlich für Web-Benutzer. Danke

Kommentar veröffentlichen

Kommentare bitte fair und im rechtlich erlaubten Rahmen verfassen!
Die Kommentare und ggf. hinterlassene URLs werden von mir überprüft. Kommentare die für blaue Pillchen, Glücksspiele, bestimmte Bilder/Videos, Abzocker-Dienste usw. werben, werden gelöscht.

Kommentare von SEO-Link-Builder sind ebenso unerwünscht!

In den Kommentare können die HTML-Tags für:
kursiv = <i>Testwort</i>
fett = <b>Testwort</b>
Links = <a href="http://www.deineURL.de/">Link Text</a>
genutzt werden. Einfach die o.g. Beispiele kopieren und mit den eigenen Werten ersetzen.

  © Blogger template Columnus by Ourblogtemplates.com 2008

Back to TOP