You are here

Grant Ingersoll von Lucene fordert freie Evaluierungsdaten fuer Open Source Search Engines

Grant Ingersoll, Entwickler bei Lucene, Solr und Mitbegründer von Mahout, hat zwei interessante Beitraege zum Thema freie Evaluierungsdaten geschrieben.

Lucene Logo
Es geht dabei darum, dass Entwickler z.B. von freien Suchmaschinen zur Evaluierung ihrer Software freie Testdaten benötigen. Im Falle einer Suchmaschine heißt das, ich brauche einen Korpus von Webseiten sowie eine Reihe von Queries. Für jede der Queries brauche ich Informationen darüber, welche Dokumente für die Query relevant sind und welche nicht. Die Erstellung solcher Testdaten ist üblicherweise relativ zeitintensiv. Dennoch existieren solche Testdaten sogar in relativ großem Umfang, sind allerdings nur zu Forschungszwecken zugänglich. Die Verwendung der Daten als privater Entwickler dagegen gestaltet sich relativ kostspielig. Grant regt ... an, solche Evaluierungsdaten allgemein zugänglich zu machen bzw. neue Testkorpora zu erstellen und diese dann unter eine weniger restriktive Lizenz zu stellen. Damit soll erreicht werden, dass man freie Implementierungen z.B. von Suchmaschinen* auch einigermaßen problemlos gegeneinander vergleichen kann. ... andere Beispiele wären Machine Learning Algorithmen, Data Mining Frameworks etc. (Isabel Drost, FSF Berlin Mailingliste, 13.6.2008)

Mahout Logo

[via Isabel Drost]

Themen: 

Kommentare

Das ist ein schwieriges Thema, weil Suchmaschinen nicht nur über einfache Leistungsdaten sondern auch über die Art, wie Inhalte entstehen und aufbereitet werden unterschieden werden sollten. Wenn es um reine Retrieval-Zeiten geht kann man solche Tests sicherlich gut gebrauchen, und ein Standard wäre auch sinnvoll. Wir haben für YaCy ja nun einen kleinen Test, bei dem die 100 Suchworte (http://svn.berlios.de/wsvn/yacy/trunk/bin/searchtest.words) so entstanden sind: Top-Suchbegriffe verschiedener Portale, und Wörter, zu denen erwartungsgemäß viele Refenzen vorhanden sein sollten.

Neuen Kommentar schreiben