Auf dieser Site publizieren Mitglieder und Gäste des SUMA-EV Beiträge, die ihre persönliche Meinung wiedergeben. Die offizielle Website des SUMA-EV finden Sie unter: www.suma-ev.de
Apache Mahout - Going from raw data to information is the title of the talk of Isabel Drost at ApacheCon US. Isabel is well-known in the Open Search community. She co-founded the Lucene sub-project Apache Mahout and organizes meet ups of core contributors around Hadoop, Lucene and Mahout in Berlin. This years ApacheCon US is in Oakland California. The talk of Isabel is on Friday, November, 6, 2009 at 10:00 in the morning (track 4).
About the talk: It has become very easy to create, publish, and collect data in digital form. The volume of structured and unstructured data is increasing at tremendous pace. This has led to a whole new set of applications that can be build if one solves the problem of turning raw data into valuable information.
Grant Ingersoll, Entwickler bei Lucene, Solr und Mitbegründer von Mahout, hat zwei interessante Beitraege zum Thema freie Evaluierungsdaten geschrieben.
Es geht dabei darum, dass Entwickler z.B. von freien Suchmaschinen zur Evaluierung ihrer Software freie Testdaten benötigen. Im Falle einer Suchmaschine heißt das, ich brauche einen Korpus von Webseiten sowie eine Reihe von Queries. Für jede der Queries brauche ich Informationen darüber, welche Dokumente für die Query relevant sind und welche nicht. Die Erstellung solcher Testdaten ist üblicherweise relativ zeitintensiv. Dennoch existieren solche Testdaten sogar in relativ großem Umfang, sind allerdings nur zu Forschungszwecken zugänglich. Die Verwendung der Daten als privater Entwickler dagegen gestaltet sich relativ kostspielig. Grant regt ... an, solche Evaluierungsdaten allgemein zugänglich zu machen bzw. neue Testkorpora zu erstellen und diese dann unter eine weniger restriktive Lizenz zu stellen. Damit soll erreicht werden, dass man freie Implementierungen z.B. von Suchmaschinen* auch einigermaßen problemlos gegeneinander vergleichen
kann. ... andere Beispiele wären Machine Learning Algorithmen, Data Mining Frameworks etc. (Isabel Drost, FSF Berlin Mailingliste, 13.6.2008)
Neueste Kommentare