SuMa-eV, Verein für freien Wissenszugang
Ein wesentlicher Baustein für die Wissensgesellschaft der Zukunft ist, dass Wissen frei verfügbar ist. Das bedeutet nicht unbedingt, dass es immer auch kostenlos erreichbar sein muss, aber es sollte zu Bedingungen verfügbar sein, welche es für die allermeisten Individuen einer Gesellschaft leicht zugreifbar macht. Mit dem Internet sind wir, trotz aller Vorbehalte und Wenn und Aber, dieser Vision ein gutes Stück näher gekommen.
Welches sind die Hindernisse dabei?
"Es gibt ja sehr viele freie Inhalte im Internet. Diese freien Inhalte, Wikipedia ist ein prominentes Beispiel, es gibt auch freie Musik, und alles unter Creative Commons, und die Open-Access-Bewegung: alles produziert freie Inhalte. Aber der Zugang zu diesen Inhalten ist proprietär. Sie müssen über eine Suchplattform gehen, die eine geheime Software betreibt, die Sie nicht selber benutzen können und eben unabhängig werden von einem proprietären Betreiber. Und hier gibt es eine fehlende Funktion in der Kette.
Aber als Unworte des Jahres schlage ich vor:
Weihnachtsstress + Weihnachtstauwetter
Frohe Weihnachten und einen guten Start nach 2010!
Wolfgang Sander-Beuermann
Darum ist es gut, dass an den Hochschulen etwas geschieht, auch wenn es sich zunächst "nur" auf deren eigenes Gebiet bezieht.

About the talk: It has become very easy to create, publish, and collect data in digital form. The volume of structured and unstructured data is increasing at tremendous pace. This has led to a whole new set of applications that can be build if one solves the problem of turning raw data into valuable information.
Der aktuelle Stand der Suchmaschinen-Technologie wird plausibel vor dem Hintergrund seiner Entwicklungsgeschichte und der des Internet. Die momentane Lage, die gekennzeichnet ist durch das Googlesche Quasimonopol, ist nur folgerichtiges Produkt dieser Entwicklung.
Der Übergang zwischen Suchmaschine und allgemeiner Internet-Platform, früher meist Portal genannt, ist fließend. Auch Google ist längst viel mehr als Suchmaschine. Ein Großteil des Zukunftskapitals liegt möglicherweise gar nicht mehr in der Suchfunktionalität, sondern in der Nutzung der Schwarmintelligenz [1] durch hohen Nutzerzahlen. Ein erstes Beispiel dafür ist Google-Flu [2].
Yahoo oeffnet seine Suche mit einem neuen Service, "Build your Own Search Service" (BOSS), weiter als je zuvor. Yahoo hat bereits mit Search Monkey, eine zwar nicht 100% offene, aber zusammenklickbare individuelle Suchmaschine geschaffen. Auch Nutzer anderer Dienste konnten bei Eurekster, Rollyo, Microsoft und Google persönliche Suchdienste zusammenklicken. "Allerdings sind alle diese Dienste in irgendeiner Weise eingeschränkt; vollen Zugriff auf den Index erhalten die Nutzer nicht." (heise.de).
BOSS (Build your Own Search Service) is Yahoo!'s open search web services platform. The goal of BOSS is simple: to foster innovation in the search industry. Developers, start-ups, and large Internet companies can use BOSS to build and launch web-scale search products that utilize the entire Yahoo! Search index. BOSS gives you access to Yahoo!'s investments in crawling and indexing, ranking and relevancy algorithms, and powerful infrastructure. By combining your unique assets and ideas with our search technology assets, BOSS is a platform for the next generation of search innovation, serving hundreds of millions of users across the Web. (11.7.2008, http://developer.yahoo.com/search/boss/)
Sind wir mit der derzeitigen Entwicklung bei Yahoo auf dem Weg zu freien Suchmaschinen und offenen Zugang zu Suchtechnologien? Wie Semager kuerzlich berichtete benutzt Yahoo bereits Open Source Suchsoftware fuer seine Webmap.
Hadoop Now at the Heart of Every Yahoo! Search ... On a very related note, we're announcing today that we implemented what we believe is the world's largest commercial application of Apache Hadoop. We are now using Hadoop to process the Webmap -- the application which produces the index from the billions of pages crawled by Yahoo! Search. (19.2.2008, http://www.ysearchblog.com/archives/000521.html)
Wie VentureBeat berichtet will Microsoft die semantische Suchmaschine Powerset für 100 Millionen US-Dollar oder moeglicherweise noch hoeher kaufen und hofft damit Google und Yahoo paroli zu bieten.
By buying Powerset, Microsoft is hoping to close the perceived quality gap with Google’s search engine. The move comes as Microsoft CEO Steve Ballmer continues to argue that improving search is Microsoft’s most important task. Microsoft’s market share in search has steadily declined, dropping further and further behind first-place Google and second place Yahoo. (, June 26th, 2008, http://venturebeat.com/2008/06/26/micr...)
![]()
Die Suchmaschine Suchmaschine Powerset durchforstet momentan ausschliesslich Wikipedia die Datenbank Freebase. Eine Besonderheit ist, dass sie natuerlich formulierte Fragen versteht. Die Technologie ist jedoch bei weitem noch nicht ausgereift und funktioniert offensichtlich gerade aus dem Grund, dass Wikipedia als hauptsaechliche Quelle herangezogen wird. Die Wikipedia ist meist gut betreut und logisch aufgebaut. Inwieweit Suchausgaben auch von anderen Webseiten gute Ergebnisse liefern werden, bleibt abzuwarten.
Im Gegensatz zu Powerset hat Google bisher keine oeffentlichen Versuche mit Suchanfragen in natuerlicher Sprache unternommen.
Google has generally dismissed Powerset’s semantic, or “natural language” approach as being only marginally interesting, even though Google has hired some semantic specialists to work on that approach in limited fashion. (, June 26th, 2008, http://venturebeat.com/2008/06/26/micr...)
Michael Imbeault, ein HIV-Forscher an der Université Laval in Quebec, hat eine automatisierte Newsseite und Suche namens e! Science News ins Netz gestellt. Wie er auf drupal.org berichtet, weil er unzufrieden mit den anderen computergenerierten News-Portalen wie Google News oder Yahoo News war
Die Website wird ausschliesslich auf Grundlage von freier GPL lizensierter Software betrieben und weiter entwickelt. Die Basis bilden Drupal und Sphinx, eine Volltext-Suchmaschine.
Sphinx is a full-text search engine, distributed under GPL version 2. Commercial license is also available for embedded use. Generally, it's a standalone search engine, meant to provide fast, size-efficient and relevant fulltext search functions to other applications. Sphinx was specially designed to integrate well with SQL databases and scripting languages. Currently built-in data sources support fetching data either via direct connection to MySQL or PostgreSQL, or using XML pipe mechanism (a pipe to indexer in special XML-based format which Sphinx recognizes). (Abruf 28.6.2008, Andrew Aksyonoff, http://www.sphinxsearch.com/about.html)
Drupal setzt in der Regel auf einem sogenannten LAMP-System aus Gnu/Linux, Apache, MySQL und Php auf. In dem Beitrag auf drupal.org beschreibt Michael Imbeault die Entstehung der Newssite, gibt Hinweise fuer den Selbstbau einer derartigen Website und spricht ueber seine "Lessons learned".
Here are a few lessons I learned in no particular order
(http://drupal.org/node/261340)
- Finding a good domain name is hard and takes time (and / or money) – start early and never stop searching, even if you got one or 2 good ones! You might find something even better.
- Backup everything often! Especially on Windows.
- Think simple; more is often less – do only what your users actually need / want as a starting point
- Don’t be afraid to redo something from scratch if it’s not working right the first time around - I rebuilt critical components of the clustering system days before launch
- Drupal is a market disrupting tool – it allows a single guy part time to build something great while learning it; imagine what a whole team of professionals can do!
- I wish I knew about simpletest a year ago; I chased bugs for a long time (and sometimes the same bug that was reoccurring). Things like clustering and regex-based parsing could have been a whole lot easier with appropriate tests.
- Release early; don’t be afraid to put off minor features to later
- Keep a todo list through the process, and try to remove items from it as fast as they appear! (this is not as easy as it sounds!)
- You know you built something great when you visit your own site and find it interesting :)
Neueste Kommentare
vor 23 Wochen 6 Tage
vor 24 Wochen 1 Tag
vor 24 Wochen 2 Tage
vor 24 Wochen 3 Tage
vor 24 Wochen 3 Tage
vor 27 Wochen 7 Stunden
vor 30 Wochen 1 Tag
vor 30 Wochen 5 Tage
vor 36 Wochen 6 Tage
vor 37 Wochen 5 Stunden