You are here

Open Source Search Engine

Grant Ingersoll von Lucene fordert freie Evaluierungsdaten fuer Open Source Search Engines

Grant Ingersoll, Entwickler bei Lucene, Solr und Mitbegründer von Mahout, hat zwei interessante Beitraege zum Thema freie Evaluierungsdaten geschrieben.

Lucene Logo
Es geht dabei darum, dass Entwickler z.B. von freien Suchmaschinen zur Evaluierung ihrer Software freie Testdaten benötigen. Im Falle einer Suchmaschine heißt das, ich brauche einen Korpus von Webseiten sowie eine Reihe von Queries. Für jede der Queries brauche ich Informationen darüber, welche Dokumente für die Query relevant sind und welche nicht. Die Erstellung solcher Testdaten ist üblicherweise relativ zeitintensiv. Dennoch existieren solche Testdaten sogar in relativ großem Umfang, sind allerdings nur zu Forschungszwecken zugänglich. Die Verwendung der Daten als privater Entwickler dagegen gestaltet sich relativ kostspielig. Grant regt ... an, solche Evaluierungsdaten allgemein zugänglich zu machen bzw. neue Testkorpora zu erstellen und diese dann unter eine weniger restriktive Lizenz zu stellen. Damit soll erreicht werden, dass man freie Implementierungen z.B. von Suchmaschinen* auch einigermaßen problemlos gegeneinander vergleichen kann. ... andere Beispiele wären Machine Learning Algorithmen, Data Mining Frameworks etc. (Isabel Drost, FSF Berlin Mailingliste, 13.6.2008)

Mahout Logo

[via Isabel Drost]

Themen: 
Subscribe to RSS - Open Source Search Engine