You are here

search engine

Co-Founder of Mahout Isabel Drost talks about "Going from raw data to information" at ApacheCon US

Apache Mahout - Going from raw data to information is the title of the talk of Isabel Drost at ApacheCon US. Isabel is well-known in the Open Search community. She co-founded the Lucene sub-project Apache Mahout and organizes meet ups of core contributors around Hadoop, Lucene and Mahout in Berlin. This years ApacheCon US is in Oakland California. The talk of Isabel is on Friday, November, 6, 2009 at 10:00 in the morning (track 4).
Isabel Drost - ApacheCon

About the talk: It has become very easy to create, publish, and collect data in digital form. The volume of structured and unstructured data is increasing at tremendous pace. This has led to a whole new set of applications that can be build if one solves the problem of turning raw data into valuable information.

Suchmaschine Powerset durchforstet Wikipedia und versteht natürliche Sprache (ein bisschen)

heise.de berichtet über die neue Suchmaschine Powerset, die jetzt an den Start gegangen ist:

Powerset soll Eingaben in natürlicher Sprache verstehen und Antworten auf ausformulierte Fragen geben können. Einzelne Suchbegriffe sind ebenso zulässig. (13.05.2008 10:57, Erich Bonnert, http://www.heise.de/newsticker/Semantische-Suchmaschine-gestartet--/meld...)

Das scheint zu funktionieren, bei einfachen Fragen zumindest liefert die Suchmaschine eine Antwort, eine Zusammenfassung weiterer Informationen und eine Liste von Links. Bei "What is powerset?" gibt die Website z.B. mehrere logische Antworten aus: "Powerset (company) Powerset is a company based in San Francisco, California that is developing a natural language search engine for the Internet."

Momentan durchsucht Powerset Wikipedia-Beiträge und die Datenbank Freebase. Die Wikipedia ist meist gut betreut und logisch aufgebaut. Inwieweit Suchausgaben auch von anderen Webseiten gute Ergebnisse liefern werden, bleibt abzuwarten.

Derzeit versteht Powerset nur Eingaben in Englisch. Dabei analysiert der Suchdienst allerdings Wort für Wort und filtert nicht nur Schlüsselbegriffe aus wie herkömmliche Suchmaschinen. Der Suchraum von Powerset ist damit bedeutend kleiner, allerdings dauert es auch wesentlich länger, eine einzelne Seite zu analysieren. Ein einzelner Prozessor kann für eine Seite mehrere Sekunden brauchen, erklärte Barney Pell, einer der Powerset-Gründer. Die Suchalgorithmen gehen auf Forschungen der NASA sowie an den Instituten Xerox PARC und SRI International zurück. Ehemalige Mitarbeiter der NASA und des Xerox PARC gehören auch zu den Powerset-Gründern. Die Firma besteht seit 2005 und wird von mehreren Risikokapitalfirmen finanziert, darunter Foundation Capital und Founders Fund. (13.05.2008 10:57, Erich Bonnert, http://www.heise.de/newsticker/Semantische-Suchmaschine-gestartet--/meld...)

Serchilo: Meta Search Engine with Wiki Commands

I followed a lightning talk of Georg Jähnig on serchilo.net at the 24c3 Chaos Communication Congress. The video is available now in the torrent network. I uploaded it to Google Video (please post alternatives as comments). Last year I already published an interview with Georg in German. He put quite a lot of work in improving the website and making it more international since then. Hope his ideas takes off even more in the upcoming year. Would be great to have him at the SuMa-eV congress this year as well.

Videolink: http://video.google.com/videoplay?docid=-5416119002471085549

Subscribe to RSS - search engine