You are here

Google

Build your Own Search Service - BOSS: Yahoo öffnet seine Such-Infrastruktur weiter

Yahoo oeffnet seine Suche mit einem neuen Service, "Build your Own Search Service" (BOSS), weiter als je zuvor. Yahoo hat bereits mit Search Monkey, eine zwar nicht 100% offene, aber zusammenklickbare individuelle Suchmaschine geschaffen. Auch Nutzer anderer Dienste konnten bei Eurekster, Rollyo, Microsoft und Google persönliche Suchdienste zusammenklicken. "Allerdings sind alle diese Dienste in irgendeiner Weise eingeschränkt; vollen Zugriff auf den Index erhalten die Nutzer nicht." (heise.de).

Yahoo BOSS

BOSS (Build your Own Search Service) is Yahoo!'s open search web services platform. The goal of BOSS is simple: to foster innovation in the search industry. Developers, start-ups, and large Internet companies can use BOSS to build and launch web-scale search products that utilize the entire Yahoo! Search index. BOSS gives you access to Yahoo!'s investments in crawling and indexing, ranking and relevancy algorithms, and powerful infrastructure. By combining your unique assets and ideas with our search technology assets, BOSS is a platform for the next generation of search innovation, serving hundreds of millions of users across the Web. (11.7.2008, http://developer.yahoo.com/search/boss/)

Sind wir mit der derzeitigen Entwicklung bei Yahoo auf dem Weg zu freien Suchmaschinen und offenen Zugang zu Suchtechnologien? Wie Semager kuerzlich berichtete benutzt Yahoo bereits Open Source Suchsoftware fuer seine Webmap.

Hadoop Now at the Heart of Every Yahoo! Search ... On a very related note, we're announcing today that we implemented what we believe is the world's largest commercial application of Apache Hadoop. We are now using Hadoop to process the Webmap -- the application which produces the index from the billions of pages crawled by Yahoo! Search. (19.2.2008, http://www.ysearchblog.com/archives/000521.html)

Microsoft will Powerset fuer 100 Mio US-Dollar kaufen

Wie VentureBeat berichtet will Microsoft die semantische Suchmaschine Powerset für 100 Millionen US-Dollar oder moeglicherweise noch hoeher kaufen und hofft damit Google und Yahoo paroli zu bieten.

By buying Powerset, Microsoft is hoping to close the perceived quality gap with Google’s search engine. The move comes as Microsoft CEO Steve Ballmer continues to argue that improving search is Microsoft’s most important task. Microsoft’s market share in search has steadily declined, dropping further and further behind first-place Google and second place Yahoo. (Matt Marshall, June 26th, 2008, http://venturebeat.com/2008/06/26/micr...)

The image “http://venturebeat.com/wp-content/themes/venturebeat/images/venturebeat_banner.gif” cannot be displayed, because it contains errors.

 Die Suchmaschine Suchmaschine Powerset durchforstet momentan ausschliesslich Wikipedia die Datenbank Freebase. Eine Besonderheit ist, dass sie natuerlich formulierte Fragen versteht. Die Technologie ist jedoch bei weitem noch nicht ausgereift und funktioniert offensichtlich gerade aus dem Grund, dass Wikipedia als hauptsaechliche Quelle herangezogen wird. Die Wikipedia ist meist gut betreut und logisch aufgebaut. Inwieweit Suchausgaben auch von anderen Webseiten gute Ergebnisse liefern werden, bleibt abzuwarten.

Im Gegensatz zu Powerset hat Google bisher keine oeffentlichen Versuche mit Suchanfragen in natuerlicher Sprache unternommen.

Google has generally dismissed Powerset’s semantic, or “natural language” approach as being only marginally interesting, even though Google has hired some semantic specialists to work on that approach in limited fashion.  (Matt Marshall, June 26th, 2008, http://venturebeat.com/2008/06/26/micr...)

 

e! Science - automatisierte Newsseite fuer die Wissenschaft mit Drupal und freier Suchmaschine Sphinx

Michael Imbeault, ein HIV-Forscher an der Université Laval in Quebec, hat eine automatisierte Newsseite und Suche namens e! Science News ins Netz gestellt. Wie er auf drupal.org berichtet, weil er unzufrieden mit den anderen computergenerierten News-Portalen wie Google News oder Yahoo News war

Die Website wird ausschliesslich auf Grundlage von freier GPL lizensierter Software betrieben und weiter entwickelt. Die Basis bilden Drupal und Sphinx, eine Volltext-Suchmaschine.

Sphinx Search LogoSphinx is a full-text search engine, distributed under GPL version 2. Commercial license is also available for embedded use. Generally, it's a standalone search engine, meant to provide fast, size-efficient and relevant fulltext search functions to other applications. Sphinx was specially designed to integrate well with SQL databases and scripting languages. Currently built-in data sources support fetching data either via direct connection to MySQL or PostgreSQL, or using XML pipe mechanism (a pipe to indexer in special XML-based format which Sphinx recognizes). (Abruf 28.6.2008, Andrew Aksyonoff, http://www.sphinxsearch.com/about.html)

Drupal setzt in der Regel auf einem sogenannten LAMP-System aus Gnu/Linux, Apache, MySQL und Php auf. In dem Beitrag auf drupal.org beschreibt Michael Imbeault die Entstehung der Newssite, gibt Hinweise fuer den Selbstbau einer derartigen Website und spricht ueber seine "Lessons learned".

esciencenews Here are a few lessons I learned in no particular order

  • Finding a good domain name is hard and takes time (and / or money) – start early and never stop searching, even if you got one or 2 good ones! You might find something even better.
  • Backup everything often! Especially on Windows.
  • Think simple; more is often less – do only what your users actually need / want as a starting point
  • Don’t be afraid to redo something from scratch if it’s not working right the first time around - I rebuilt critical components of the clustering system days before launch
  • Drupal is a market disrupting tool – it allows a single guy part time to build something great while learning it; imagine what a whole team of professionals can do!
  • I wish I knew about simpletest a year ago; I chased bugs for a long time (and sometimes the same bug that was reoccurring). Things like clustering and regex-based parsing could have been a whole lot easier with appropriate tests.
  • Release early; don’t be afraid to put off minor features to later
  • Keep a todo list through the process, and try to remove items from it as fast as they appear! (this is not as easy as it sounds!)
  • You know you built something great when you visit your own site and find it interesting :)
(http://drupal.org/node/261340)
Themen: 

Google & Co. nur wenig Marktanteil bei Wissenschaftlern aus der Elementarteilchenphysik

desy logo

Laut einer Umfrage eines Teams von Elementarteilchenphysikern spielen kommerzielle Suchmaschinen bei der Recherche nach wissenschaftlichen Arbeiten für Wissenschaftler ihrer Disziplin kaum eine Rolle. Die Umfrage wurde auf dem "HEP Information Summit" vorgestellt. An ihr nahmen mehr als 2000 Wissenschaftler weltweit teil, dass sind rund 10% der im Bereich der Elementarteilchenphysik tätigen Forscher. Durchgeführt wurde die Studie von Anne Gentil-Beccot, Salvatore Mele (European Organization for Nuclear Research), Annette Holtkamp (Deutsches Elektronen-Synchrotron DESY), Heath B. O’Connell (Fermilab Library) and Travis C. Brooks (Stanford University). Bevorzugt werden von den befragten Wissenschaftlern in erster Linie communitybasierte Suchmaschinen und Datenbanken.

The main finding of the survey is that community-based services are overwhelmingly dominant in the research workflow of HEP scholars. Although the popularity of Google increases with younger researchers, the field-specific utility provided by these highly-tailored services is perceived as more relevant. Commercial systems are virtually unused in the field. While the various community-based systems have stronger and weaker features, users attach paramount importance to three axes of excellence: access to full-text, depth of coverage and quality of content. (http://arxiv.org/pdf/0804.2701, pdf 412 KB)

Richard Sietmann stellt die Ergebnisse der Umfrage in Kontrast zu einer noch unveröffentlichten Studie der Deutschen Forschungsgemeinschaft:

Dieses Ergebnis kontrastiert mit den Zahlen, die kürzlich eine noch unveröffentlichte Studie der Deutschen Forschungsgemeinschaft zutage förderte, wonach Google bei der Suche nach wissenschaftlichen Arbeiten an erster Stelle steht. An der DFG-Untersuchung hatte man allerdings Wissenschaftler aus allen Fachrichtungen befragt, und sie beschränkte sich auf den deutschen Raum. Dagegen war die gemeinsame Umfrage der Großforschungseinrichtungen CERN, DESY, Fermilab und SLAC weltweit und disziplinspezifisch angelegt ... In der Elementarteilchenphysik stützen sich die Wissenschaftler überwiegend – zu 91,4 Prozent – auf die von der HEP-Community selbst aufgebauten und betriebenen Datenbanken; für 48,2 Prozent ist (SPIRES), für 39,7 Prozent der Preprint-Server arXiv bei Recherchen die erste Anlaufstelle. Die von kommerziellen Wissenschaftsverlagen angebotenen Datenbanken und Suchmaschinen wie SCOPUS, INSPEC oder Web of Science kommen lediglich auf einen Anteil von 0,1 Prozent und spielen in dieser Disziplin praktisch keine Rolle.

Zur Rolle von Google und Sozialen Netzwerkdiensten stellt er auf Grundlage der Untersuchung fest:

Google hingegen ist unter jüngeren Wissenschaftlern offenbar im Kommen. Unter denen, die erst seit zwei Jahren aktiv tätig sind, ist die kalifornische Universalsuchmaschine für jeden fünften das System der Wahl. "Google profitiert sehr stark davon, dass die von der Community betriebenen Systeme ihre Inhalte frei dem Sammeln zur Verfügung gestellt haben", meint Salvatore Mele vom CERN. "Wie in anderen Disziplinen auch operiert Google als eine breiter aufgestellte Alternative zu den Verlagsportalen." Auf zunehmende Akzeptanz stoßen der Umfrage zufolge die Social-Networking-Tools des Web 2.0. Auf die Frage, wieviel Zeit sie für das Tagging von Artikeln über ein einfaches Web-Interface aufbringen würden, gaben 81Prozent der Forscher mehr als 30 Minuten pro Woche an; lediglich 19 Prozent sahen in dem Tagging keinen Dienst an der Community und lehnten es völlig ab – das Verhältnis zwischen Zustimmung und Ablehnung dieses Kommunikationskanals zur Kategorisierung der Arbeiten anderer blieb in allen Altersgruppen nahezu gleich... (22.05.2008 10:37, Richard Sietmann, jk/c't, http://www.heise.de/newsticker/Kommerzielle-Suchmaschinen-in-der-Element...)

Themen: 

Yahoo-Suchmaschine "SearchMonkey" zum Zusammenklicken, aber nicht offen

Yahoo hat eine Suchmaschine namens SearchMonkey ins Netz gestellt. Damit können Websitebesitzer z.B. ihre eigens angepasste Suchoberfläche auf der eigenen Seite anbieten oder auch die Suchweite eingrenzen. 

So lässt sich zum Beispiel eine Site-übergreifende Suche aufbauen, die die zum Suchtreffer passende Adresse, Bewertungen oder den Börsenkurs anzeigt. Bei der Einrichtung hilft ein Assistent, der den Anwender in fünf Schritten Design und Datenfelder auswählen lässt. Der resultierende PHP-Code kann zwecks Feinabstimmung direkt bearbeitet werden. Auch für den Aufbau der passenden Webdienste bietet SearchMonkey Assistenten. (heb/c't)  (15.05.2008 18:02, http://www.heise.de/newsticker/Yahoo-veroeffentlicht-Suchmaschine-zum-Se...)

Das Konzept an sich gibt es schon länger bei Google. So kann man seine benutzerdefinierte Suchmaschine auch hier selber designen. Die Möglichkeit das Design einer Suchmaske zu ändern und die Suche einzuschränken, ändert nichts daran, dass die Suchmaschinentechnologie von Yahoo unfrei ist und Unabhängigen keinen Einblick in den Code gewährt wird. Zudem wissen Nutzer bei Yahoo, genauso wie bei Google oder Microsoft nicht, welche Daten, wie lange und wo gespeichert werden und inwieweit dies die Privatsphäre der Nutzer möglicherweise beeinträchtigt oder beeinträchtigen kann.

Auf der Website von SearchMonkey behauptet Yahoo zudem: "SearchMonkey is Yahoo! Search's new open platform." Nur weil Yahoo hier eine Api (Schnittstelle) bereitstellt und Entwickler Anwendungen bauen dürfen, handelt es sich bei SearchMonkey jedoch noch lange nicht um eine offene Suchmaschine, im Sinne von "Open Source" und noch weniger um eine freie und offene Suchmaschine, im Sinne von "free as in freedom". Nichts ändert sich an der genutzten Technologie hinter Suche. Sie basiert weiterhin auf die proprietären und geschlossenen Yahoosuch-Technologie

SearchMonkey is Yahoo! Search's new open platform.

Using SearchMonkey, developers and site owners can use structured data to make Yahoo! Search results more useful and visually appealing, and drive more relevant traffic to their sites. How does it work? The SearchMonkey developer tool helps you find and construct data services that you can use to build apps. Once you've built your app, you can use it yourself and share it with others.

Getting Started

1. Visit the Developer overview or Site Owner overview to learn more about participating in SearchMonkey
2. Browse the SearchMonkey Guide to learn what it takes to build a SearchMonkey app
3. Start building your data service or app using the SearchMonkey developer tool

(16. Mai 2008, http://developer.yahoo.com/searchmonkey/)

Suchmaschine Powerset durchforstet Wikipedia und versteht natürliche Sprache (ein bisschen)

heise.de berichtet über die neue Suchmaschine Powerset, die jetzt an den Start gegangen ist:

Powerset soll Eingaben in natürlicher Sprache verstehen und Antworten auf ausformulierte Fragen geben können. Einzelne Suchbegriffe sind ebenso zulässig. (13.05.2008 10:57, Erich Bonnert, http://www.heise.de/newsticker/Semantische-Suchmaschine-gestartet--/meld...)

Das scheint zu funktionieren, bei einfachen Fragen zumindest liefert die Suchmaschine eine Antwort, eine Zusammenfassung weiterer Informationen und eine Liste von Links. Bei "What is powerset?" gibt die Website z.B. mehrere logische Antworten aus: "Powerset (company) Powerset is a company based in San Francisco, California that is developing a natural language search engine for the Internet."

Momentan durchsucht Powerset Wikipedia-Beiträge und die Datenbank Freebase. Die Wikipedia ist meist gut betreut und logisch aufgebaut. Inwieweit Suchausgaben auch von anderen Webseiten gute Ergebnisse liefern werden, bleibt abzuwarten.

Derzeit versteht Powerset nur Eingaben in Englisch. Dabei analysiert der Suchdienst allerdings Wort für Wort und filtert nicht nur Schlüsselbegriffe aus wie herkömmliche Suchmaschinen. Der Suchraum von Powerset ist damit bedeutend kleiner, allerdings dauert es auch wesentlich länger, eine einzelne Seite zu analysieren. Ein einzelner Prozessor kann für eine Seite mehrere Sekunden brauchen, erklärte Barney Pell, einer der Powerset-Gründer. Die Suchalgorithmen gehen auf Forschungen der NASA sowie an den Instituten Xerox PARC und SRI International zurück. Ehemalige Mitarbeiter der NASA und des Xerox PARC gehören auch zu den Powerset-Gründern. Die Firma besteht seit 2005 und wird von mehreren Risikokapitalfirmen finanziert, darunter Foundation Capital und Founders Fund. (13.05.2008 10:57, Erich Bonnert, http://www.heise.de/newsticker/Semantische-Suchmaschine-gestartet--/meld...)

Suchmaschinen-Vergleichstest

Nachdem es für lange Zeit keine Suchmaschinen-Vergleichstests mehr gab, da jeder sowieso das Ergebnis vorher kannte und der Marktführer als Sieger von vornherein feststand, hat nun die Fachzeitschrift "Computer - Das Magazin für die Praxis" dieses Thema wieder aufgegriffen.
In ihrer aktuellen Ausgabe 07/2008, Seite 96ff ist ein Vergleichstest unter der Überschrift "Googlen Sie noch oder finden Sie schon?" veröffentlicht.
Testsieger ist MetaGer (http://metager.de) und das mit weitem Abstand vor dem Marktführer.

Bewertet wurde (nach Schulnoten):

  • die Qualität der Treffer zu 10 vorgegebenen Beriffen,
  • das Verhältnis der informativen zu den Werbeergebnissen,
  • die Bedienungsfreundlichkeit
  • und der Umgang mit personenbezogenen Daten.

Testsieger: www.metager.de mit der Gesamtnote "sehr gut": 1,49
gefolgt von www.search.wikia.com mit "befriedigend": 3,0
und auf Platz www.google.de mit Gesamtnote "ausreichend" 3,6

Zitat zu MetaGer: "Die Suchergebnisse sind deutlich besser, als bei
allen anderen Suchmaschinen."

Themen: 

Untergräbt Google den Zugang zu Wissen durch Bibliotheken?

Freie Suchmaschinen sind kein schöner Traum, sondern eine Notwendigkeit für eine offene und freie Gesellschaft. Der Zugang zu Wissen und Informationen darf nicht ausschliesslich über Suchmaschinen verfolgen, die lediglich kommerziellen Privatinteressen verpflichtet sind und nicht dem Allgemeinwohl. Immer mehr scheint sich diese Ansicht auch in den Bibliotheken durchzusetzen. Auf einer Tagung des internationalen Dachverbands der Bibliotheksvereinigungen (IFLA) im Auswärtigen Amt zur Rolle der Bibliotheken in der Wissensgesellschaft äusserten sich auch Miriam Nisbet, Direktorin des Abteilung Informationsgesellschaft bei der UNESCO, und Johannes Fournier von der Deutschen Forschungsgemeinschaft (DFG) in diese Richtung.

Miriam Nisbet: "Googeln scheint den Zugang zu Wissen durch Bibliotheken zu untergraben" führte die US-Amerikanerin aus. Was diese Zugriffsmöglichkeiten aber erst wertvoll mache, sei die Plattform, über die sie erfolgen würden. Die Büchereien stünden auf dem Fundament der Idee der Freiheit und der Menschenrechte und hätten eine soziale Verantwortung. Daher müsse man fragen, ob "wir den Zugang zum Wissen überhaupt den Regeln des Marktes überlassen können". In diesem Falle würde die kulturelle Vielfalt verloren gehen, während sich soziale Ungleichheiten ausweiten würden, fürchtete Nisbet.

Auch Johannes Fournier von der Deutschen Forschungsgemeinschaft (DFG) sah die Gefahr einer digitalen Spaltung "auch in der Form, dass Bibliothekare verstärkt von Nutzern getrennt werden". Viele würden sich nur noch auf Suchmaschinen verlassen, während Professoren sich selbst im Netz zu Wissensanbietern entwickeln würden. Dem müssten die Bibliotheken das Katalogisieren und Verfügbarmachen von Informationen auf höchsten Niveau entgegenstellen. Dabei sollte die soziale Interaktion mit den Nutzern etwa über mit Web-2.0-Funktionen zur Bewertung von Informationsressourcen ausgebaut werden. (Stefan Krempl, 21.02.2008 17:02, http://www.heise.de/newsticker/meldung/103885)

Google Cookies

Google ändert das Handling der Cookies, die beim Besuch der Google-Seite auf dem Rechner des Nutzers abgelegt werden.

Bislang waren diese Cookies bis ins Jahr 2038 gültig, wenn sie nicht vorher vom Nutzer selbst gelöscht wurden. Dieser Mechanismus wird jetzt ersetzt durch einen, der dem Keks eine zweijährige Gültigkeit verpasst, diese wird aber bei jedem Besuch der Google-Seite wieder neu gesetzt. Im Prinzip entstehen dadurch also ewig gültige Cookies, die nur dann verfallen, wenn der Nutzer zwei Jahre lang nicht die Google-Seite aufsucht.

Aufgrund des sehr langlebigen Kekses war Google in die Kritik geraten, durch die Änderung soll dieser Kritik nun entgegnet werden. Eine Frage ist allerdings, weshalb eine Suchmaschine wie Google überhaupt Cookies einsetzt.

Google behauptet (wie ja immer), die dadurch gewonnenen Informationen zur Verbesserung der Suchdienste zu verwenden. Aber welchen Aufschluss können Cookies darüber geben, wie der Suchdienst verbessert werden kann?

Cookies sind allgemein ein Instrument, um User zu identifizieren und ihnen persönliche Einstellungen beim wiederholtenBesuch einer Seite zu präsentieren. Aber bei der Google-Suche (und nur um die geht es hier) können gar keine Einstellungen personalisiert und dauerhaft vorgenommen werden. Wozu also der Cookie?

Themen: 

Seiten

Subscribe to RSS - Google