You are here

Nutch

Hadoop Meet up in Berlin

Hadoop LogoAm 8. September, 2008 um 17 Uhr gibt es ein neues Hadoop get together im newthinking store in der Tucholskystr. 48 in Berlin.
This is going to be the second German Hadoop get together in Berlin. Just like last time there will be slots of 20min each for talks on your Hadoop topic. After each talk there will be a lot time to discuss. ...

Talks scheduled so far:

  • The topic of Marc Hofer's talk is: "UIMA scale-out with MapReduce using Apache Hadoop".
  • Rasmus Hahn is going to share his experiences with Hadoop from the perspective of his projects at neofonie (http://www.neofonie.de).
Apache Hadoop is a free Java software framework that supports data intensive distributed applications running on large clusters of commodity computers.[1] It enables applications to work with thousands of nodes and petabytes of data. Hadoop was inspired by Google's MapReduce and Google File System (GFS) papers. Hadoop is a top level Apache project, being built and used by a community of contributors from all over the world[2]. Yahoo! has been the largest contributor[3] to the project and uses Hadoop extensively in its Web Search and Advertising businesses.[4]IBM and Google have announced a major initiative to use Hadoop to support University courses in Distributed Computer Programming. [5] Hadoop was created by Doug Cutting (now a Yahoo employee), who named it after his child's stuffed elephant. It was originally developed to support distribution for the Nutch search engine project.[6] (Wikipedia Version 16 August 2008, at 19:45, http://en.wikipedia.org/wiki/Hadoop)

Links:

- http://hadoop.apache.org

[via Isabel Drost]

Grant Ingersoll von Lucene fordert freie Evaluierungsdaten fuer Open Source Search Engines

Grant Ingersoll, Entwickler bei Lucene, Solr und Mitbegründer von Mahout, hat zwei interessante Beitraege zum Thema freie Evaluierungsdaten geschrieben.

Lucene Logo
Es geht dabei darum, dass Entwickler z.B. von freien Suchmaschinen zur Evaluierung ihrer Software freie Testdaten benötigen. Im Falle einer Suchmaschine heißt das, ich brauche einen Korpus von Webseiten sowie eine Reihe von Queries. Für jede der Queries brauche ich Informationen darüber, welche Dokumente für die Query relevant sind und welche nicht. Die Erstellung solcher Testdaten ist üblicherweise relativ zeitintensiv. Dennoch existieren solche Testdaten sogar in relativ großem Umfang, sind allerdings nur zu Forschungszwecken zugänglich. Die Verwendung der Daten als privater Entwickler dagegen gestaltet sich relativ kostspielig. Grant regt ... an, solche Evaluierungsdaten allgemein zugänglich zu machen bzw. neue Testkorpora zu erstellen und diese dann unter eine weniger restriktive Lizenz zu stellen. Damit soll erreicht werden, dass man freie Implementierungen z.B. von Suchmaschinen* auch einigermaßen problemlos gegeneinander vergleichen kann. ... andere Beispiele wären Machine Learning Algorithmen, Data Mining Frameworks etc. (Isabel Drost, FSF Berlin Mailingliste, 13.6.2008)

Mahout Logo

[via Isabel Drost]

Themen: 

180 Millionen Förderung für Theseus - technologieferne Konzerne erhalten Großteil

Die Suchmaschinenpolitk rückt immer mehr ins Blickfeld der Öffentlichkeit. In der aktuellen Ausgabe der Technology Review (03/08) beschäftigt Ralf Grötker sich in einem Special auf 16 Seiten mit Google, Microsoft, Yahoo und Co. Unter dem Titel "Politische Querelen behindern europäische Google-Alternative" berichtet er als vorab vom Special auf Heise.de über die gescheiterte deutsch-französisch Suchmaschineninitiative Quaero und das deutsche Folgeprojekt Theseus. Hierin wird auf die unterschiedlichen Anschauungen von Frankreich und Deutschland bei den Zielen der Förderung als Grund hingewiesen.

Laut Wirtschaftsstaatssekretär Hartmut Schauerte gehe der deutsche Rückzug aus dem Projekt (Quaero) zurück auf einen "Wunsch" des Thomson-Konzerns, der eine enge Verzahnung nicht mehr für erreichbar gehalten habe. In Frankreich dagegen heißt es, eine Gruppe deutscher Forscher habe zu sehr darauf gedrängt, den Fokus auf semantische Technologien zu lenken. Das Projekt war am 26. April 2005 anlässlich eines deutschen Staatsbesuchs in Paris ursprünglich als "elektronische europäische Bibliothek" angekündigt worden. ... In der Antwort auf eine Anfrage der Grünen-Bundestagsabgeordneten Grietje Bettin ließ Wirtschaftsstaatssekretär Schauerte seinerzeit wissen, dass Deutschland 90 bis 100 Millionen Euro Fördermittel bereitstellen werde, aus Frankreich komme ein vergleichbarer Betrag. Zusammen mit den Eigenmitteln der beteiligten Unternehmen sollte sich dadurch ein Gesamtbudget für Quaero von "deutlich über 400 Millionen Euro" über die Laufzeit von fünf Jahren ergeben. Doch daraus sollte nichts werden: "Erste Hinweise zeichneten sich - rückblickend - im September/Oktober 2006 ab ...

... Das BMWi darf Theseus nun tatsächlich mit 90 Millionen Euro über fünf Jahre fördern. Die Partner aus Industrie und Forschung bringen ebenfalls 90 Millionen Euro auf, sodass das Programm ein Gesamtvolumen von 180 Millionen hat. Mancher Unternehmer stört sich allerdings daran, dass bislang nur relativ Internet-ferne Großkonzerne und keines der deutschen Vorzeige-Internet-Unternehmen wie United Internet oder Web.de beteiligt sind. (22.02.2008 12:34, http://www.heise.de/newsticker/meldung/103921)

Viel Geld fliesst dort. Mehr als die Trennung von Frankreich und Deutschland im Förderprogramm verwundert mich jedoch, dass fast ausschliesslich technologieferne Firmen an dem darauf folgenden deutschen Forschungsprogramm "Theseus" teilnehmen. Auch freie Software-Projekte wie Yacy oder deutsche Entwickler von Nutch/Lucene erhalten meines Wissens bisher keine Förderung aus Bundesmitteln. Kleine Summen könnten dabei gerade hier potentiell enorme Fortschritte erzielen.

Der Teaserbeitrag auf der Onlineseite von TR handelt von der Übermacht Googles und den Ansätzen kleiner Suchmaschinen und ehemaliger Suchmaschinengrößen wie Lycos durch Spezialangebote ihre Reichweite zu erhöhen.

Wie sehr Google das erfolgsverwöhnte Alphatier Microsoft über die Jahre hinweg zermürbt hat, lässt sich seit diesem Februar an einer Zahl ablesen: 45 Milliarden Dollar. So viel möchte Microsoft für den wichtigsten verbliebenen Google-Rivalen Yahoo! ausgeben - annähernd das Doppelte seines Börsenwertes vor dem Übernahme-Angebot. Dieser Frontalangriff zeigt, dass Microsoft sich offenbar nicht mehr dazu in der Lage sieht, durch eigene Kraft und eigene Produkte im Suchmaschinengeschäft zu Google aufschließen zu können. Wenn sogar Microsoft sein Heil nur noch in milliardenschweren Zukäufen sucht - wer sonst soll in der Lage sein, neben Google zu gedeihen? Tatsächlich hat sich in der Nische, die Google übrig gelassen hat, ein lebhaftes Biotop aus kleinen Suchmaschinen mit völlig unterschiedlichen Ansätzen entwickelt. Ist unter ihnen schon die Suchmaschine zu finden, der es einmal gelingen wird, Google zu schlagen - so wie Google einst selbst den lange als unangreifbar geltenden Konkurrenten Altavista aus dem Feld geräumt hat? ... Unter den neuen Suchmaschinenanbietern, die hier ihre Chance sehen, gibt es zum Beispiel solche, die auf Menschen setzen statt auf Algorithmen. Beim neuen Dienst ChaCha etwa stehen menschliche Internet-Führer Suchenden beim Finden der richtigen Ergebnisse zur Seite. Und Wikia Search, die neue Suchmaschine des Wikipedia-Gründers Jimmy Wales, setzt darauf, dass die Kommentare und Wertungen der Nutzer langfristig zu einer neuen Qualität von Suchergebnissen führen werden. ... "Ganz ehrlich: Google wird im Bereich der algorithmischen Suche kaum noch jemand schlagen. Auch wir nicht", sagt Thomas Servatius. Er ist leitender Produktmanager bei Lycos Europe in Gütersloh und hat den Dienst "Lycos IQ" mit aufgebaut... .(03/08, http://www.heise.de/tr/Suchmaschinen--/artikel/10364).

Subscribe to RSS - Nutch