Die Suche nach wissenschaftlichen Texten war in der Vergangenheit ein schwieriges Unterfangen. Klassischerweise begab man sich in Bibliotheken, fragte Kollegen, besuchte Fachmessen oder hantierte mit mehr oder minder sperrigen Datenbanken. Aber egal für welche der Varianten man sich entschied, alle hatten den gleichen Makel: Die Informationsbeschaffung dauerte einfach zu lange. Mit io-port.net hat das FIZ Karlsruhe in Kooperation mit der Gesellschaft für Informatik (GI) sowie Wissenschaftlern verschiedener Universitäten einen Zugang zum weltweiten Informatikwissen geschaffen.
Derzeit bietet das Informationsportal io-port.net [1] den Zugriff auf mehr als zwei Millionen Publikationen in der Informatik und verwandten Forschungsgebieten. Diese beeindruckende Zahl setzt sich unter anderem aus Zeitschriftenartikeln, Dissertationen, technischen Berichten und Konferenzbeiträgen zusammen. Damit aber nicht genug: io-port.net bietet außerdem den Vollzugriff auf die Texte der gesamten LNI-Reihe (Lecture Notes in Informatics). Ziel des Informatikportals ist es, alle Schritte für die Informationsbeschaffung unter einer Oberfläche zu vereinen. Bei all diesen Vorschusslorbeeren stellt sich manch kritischer Informatiker zurecht die Frage, ob io-port.net tatsächlich das halten kann, was die Entwickler versprechen. Und welche Vorteile bietet io-port.net eigentlich gegenüber anderen wissenschaftlichen Suchdiensten wie Google Scholar?
Google für Wissenschaftler
Seit November 2004 bietet Google unter [2] einen Suchdienst für wissenschaftliche Literatur an. Ergänzend zur normalen Google-Suche ist in Google Scholar eine Zitationsanalyse für Publikationen implementiert. Der Suchalgorithmus hat allerdings immer noch Schwächen. So werden sehr oft Treffer angezeigt, die nicht zu Volltexten führen und somit in aller Regel unbrauchbar sind. Auch wenn Google Scholar durchaus als Recherchedienst für den Einstieg in ein Thema genutzt werden kann, stößt man schnell an dessen Grenzen.
So wird nur ein Teil der vorhandenen Datenquellen genutzt, was zu einer Verzerrung in der Wahrnehmung der wissenschaftlichen Literatur führt. In welchem Maß die Datenabdeckung zu einzelnen Fachgebieten tatsächlich von Google Scholar erreicht wird, lässt sich leider nicht ermitteln. Diese Informationen hält Google unter Verschluss: Das macht es natürlich unmöglich, diesen Nachteil beim Arbeiten einzukalkulieren. (Die Ranking-Technologie ist hingegen weniger geheim. Sie berücksichtigt den vollständigen Text eines Artikels, den Autor, wo der Artikel veröffentlicht wurde und wie oft der Artikel innerhalb wissenschaftlicher Literatur zitiert wird.)
Portale im Vergleich
Im Gegensatz zu Google konzentriert sich das Informationsportal io-port.net auf ein Fachgebiet, nämlich die Informatik. Ob io-port.net tatsächlich Vorteile gegenüber Google Scholar bietet, zeigt ein erster Test, bei dem nach dem Begriff Refactoring gesucht wurde. Google Scholar lieferte dazu weltweit 7900 Treffer. Eingeschränkt auf deutschsprachige Seiten reduzierte sich diese Zahl auf 381. Unter den ersten zehn Treffern der deutschsprachigen Ergebnisliste befanden sich gerade einmal fünf brauchbare. Die anderen Treffer stellten Zitate dar. Schade nur, dass Zitate bei Google Scholar nicht direkt anklickbar sind. Die Ausweitung auf weltweite Suchtreffer brachte zwar Besserung, doch bereits auf Trefferseite 2 begannen sie wieder: die (zumindest meistens) überflüssigen Zitat-Treffer. Die Suche nach Refactoring bei io-port.net förderte 286 Suchergebnisse zu Tage, die sich aus wissenschaftlichen Publikationen, Zeitschriftenartikeln, Forschungsarbeiten usw. zusammensetzen. Alle Suchtreffer sind mit Hyperlinks hinterlegt, über die man zu bibliografischen Angaben wie Autor, Quelle und Dokumenttyp geleitet wird. Dieser kleine Test führte gleich zu mehreren Erkenntnissen: Google Scholar ist der Betastatus deutlich anzumerken. So sind die Ergebnisse mancher Suchbegriffe nicht aktuell und zudem lückenhaft. Andererseits ist dieser Google-Dienst durchaus für eine flotte Recherche quasi aus dem Handgelenk interessant, ein echtes Informationsportal wie io-port.net kann er hingegen keinesfalls ersetzen. Und dabei konnte io-port.net im Kurztest sein Potenzial nur ansatzweise zeigen. Denn durch den Einsatz verschiedenster semantischer Werkzeuge lassen sich Suchergebnisse eingrenzen und auf alternative Suchbegriffe ausdehnen.
Erstkontakt zu io-port.net
Zur Recherche werden bei io-port.net seit längerem nebeneinander existierende Datenbanken aufbereitet und in einem einzigen Datenbestand zusammengefügt:
CCSB (The Collection of Computer Science Bibliographies, Universität Karlsruhe (TH))
CompuScience (FIZ Karlsruhe)
DBLP (Digital Bibliography & Library Project, Universität Trier)
LEABiB (Bibliographische Datenbank des Lehrstuhls für Effiziente Algorithmen der Technischen Universität München)
Derzeit umfasst io-port.net nach eigener Aussage 2 Millionen Publikationen. Allen Interessenten stehen die so genannten Basisdienste kostenlos zur Verfügung. Diese sind zwar nicht annähernd so interessant wie der kostenpflichtige Bereich, haben aber durchaus einige ansprechende Funktionen zu bieten. So kann man hier bereits den gesamten Datenbestand durchsuchen und bekommt die Suchergebnisse in Listenform angezeigt.
Zusätzlich lassen sich die eigenen und die von anderen Benutzern freigegebenen Publikationslisten einsehen. Für einen ersten Überblick reichen diese Funktionen aus, befriedigend sind sie freilich nicht. So wird der Zugang zu den Volltexten ebenso verwehrt wie die Navigations- und Verknüpfungsfunktionen.
Mehr Wert
Interessanter ist da die erweiterte Suche, die allerdings ausschließlich zahlenden Kunden vorbehalten ist. (Mehr zum Lizenzierungsmodell später.) Denn dort können die Begriffe einer Suchanfrage nicht nur mittels einer UND-Verknüpfung zusammengefasst werden. Zusätzlich zu dieser Standardvariante kann man auch ODER- und UND-NICHT-Verknüpfungen setzen. Das ermöglicht Suchanfragen wie Autor = Tim McComb UND-NICHT Tracing Information Flow Through Mode Changes.
Ein effektives Hilfsmittel für alle Suchvarianten stellt die Trunkierung dar. Unter der Trunkierung wird nichts anderes als die Abkürzung der Suchbegriffe verstanden. Die meisten Anwender kennen die Trunkierung (auch wenn sie dort nicht explizit so genannt wird) von der Dateisuche bei Betriebssystemen wie Windows und Linux. Wer sich unter Linux alle XML-Dateien anzeigen lassen will, gibt in die Suchmaske *.xml ein. io-port.net unterstützt die rechtsseitige Trunkierung. (Eine linksseitige Trunkierung ist nicht möglich, ebenso wenig wie die Maskierung, also die Trunkierung in der Wortmitte.)
Ein weiterer bedeutender Unterschied zwischen kostenloser und kostenpflichtiger Suche ist die Ergebnisliste. Zwar stimmt die Trefferanzahl bei beiden Varianten überein, damit sind die Gemeinsamkeiten aber auch bereits erschöpft. Im bezahlten Mehrwertbereich sind Titel und Autor aktive Hyperlinks, die direkt zu den entsprechenden Datenbankeinträgen führen. Dort sind die bibliografischen und inhaltlichen Angaben enthalten. Dazu gehören – und hier gibt sich io-port.net ganz traditionell – Autor, Titel, Quelle, Erscheinungsdatum und eine kurze Zusammenfassung (Abstract). Über den verlinkten Autorennamen kann man sich alle weiteren bei io-port.net gelisteten Publikationen des Verfassers anzeigen lassen. Am Ende dieser Liste sind die Namen aller Koautoren aufgeführt, die mit dem Autor Dokumente veröffentlicht haben. Die Namen der Koautoren sind ebenfalls verlinkt. Neben den üblichen Literaturordnungsdaten sind vor allem die zusätzlichen Hyperlinks interessant, dank derer man sich weiterführende Quellen erschließen kann. Bei der kostenlosen Suche funktionieren diese Links hingegen nicht.
Semantische Werkzeuge
Für die Suche können – allerdings wieder nur bei der kostenpflichtigen Variante – semantische Werkzeuge herangezogen werden. Diese wurden unter Federführung des Instituts für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB) der Universität Karlsruhe im Projekt "Semantische Methoden und Tools für Informationsportale" (SemIPort) von Wissenschaftlern verschiedener deutscher und europäischer Institute entwickelt. Ein so großes Informationsportal wie io-port.net stellt für semantische Technologien eine enorme Herausforderung dar. Denn nicht nur die enorme Menge der zur Verfügung stehenden Daten muss bearbeitet werden, es muss zudem gewährleistet sein, dass sich neue Informationen schnell und unkompliziert integrieren lassen. Diese typischen Probleme wurden bei io-port.net gelöst. Bei unspezifischen Suchen ist die Anzahl der Suchtreffer meist zu hoch und ungenau, kann jedoch durch Query Refinement (Anfrage-Verfeinerungen) entsprechend eingeschränkt beziehungsweise präzisiert werden. Derzeit steht Query Refinement nur für englischsprachige Suchanfragen zur Verfügung. Hilfreich ist das Query Refinement Tool vor allem vor dem Hintergrund, dass viele Anwender gar nicht exakt spezifizieren können, was sie denn überhaupt suchen. Erschwerend kommt hinzu, dass meistens "falsch" gesucht wird. Ein typisches Beispiel dafür ist der eingangs dieses Kapitels verwendete Suchbegriff Refactoring. Denn im Regelfall sind Suchbegriffe, die aus einem Wort bestehen, ungenügend und liefern daher nur bedingt befriedigende Ergebnisse. Je mehr Suchbegriffe man einsetzt, umso besser sind in aller Regel die Ergebnisse der Trefferliste. Genau dort setzt das Query Refinement Tool an und liefert zwei unterschiedliche Arten von Empfehlungen:
Modification: In diesem Bereich werden automatisch Vorschläge für die Ergänzung des eingegebenen Suchbegriffs gemacht. Im Fall von Refactoring sind dies unter anderem Refactoring operation und Refactoring modification.
Specialisation: Hier werden Vorschläge für die Spezialisierung des Suchbegriffs aufgeführt. Für Refactoring ist das nur einer, nämlich suitable Refactoring.
Das Tool basiert auf dem Librarian Agent Query Refinement Process. Dabei handelt es sich um einen dreistufigen Prozess bestehend aus 1. der Messung der Mehrdeutigkeit einer Anfrage, 2. einer Verfeinerungsempfehlung der Anfrage und 3. dem Ranking der Verfeinerung. Im Gegensatz zu herkömmlichen Abfrage-Verfeinerungen werden hier die Suchanfragen nicht als "bag of words" betrachtet, bei denen keine semantische Verbindung zu den Suchbegriffen hergestellt wird. Als Ergebnis werden also nicht nur zusätzliche Begriffe für die Anfrage vorgeschlagen, sondern semantische Erweiterungen angezeigt.
Die Suche nach dem altbekannten Refactoring listet unter anderem den Suchtreffer Refactoring Object-Oriented Specifications: A Process for Deriving Designs auf, eine Publikation von Tim McComb und Graeme Smith. Neben einer Kurzfassung und dem Direktlink auf die Veröffentlichung erscheint auch ein Hyperlink auf die Seite der beiden Wissenschaftler. Folgt man diesem Link, kann man sich nicht nur die eigentliche Publikation ansehen, sondern stößt eventuell noch auf zusätzliche Informationen. Im Fall von McComb und Smith sind das beispielsweise 38 weitere Dokumente zum Thema Software Engineering. Sowohl in der einfachen wie auch in der erweiterten Suche kann nicht nur wie bisher beschrieben nach Stichworten, sondern auch nach Autoren, Publikationstitel, Name der Fakultät usw. gesucht werden. Gibt man zum Beispiel den Namen Tim McComb ein, werden immerhin zehn Veröffentlichungen aufgelistet. Darunter ist dann auch wieder das nun schon bekannte Refactoring Object-Oriented Specifications: A Process for Deriving Designs.
Persönliche Wissensdatenbank
Wer sich intensiv mit der Informationsbeschaffung auseinandersetzt, benötigt Werkzeuge, um die gesammelten Daten verwalten und organisieren zu können. Ebenso soll dieses von dem entsprechenden Werkzeug gesammelte Wissen automatisch für eine Suchunterstützung verwendet werden. Das Tool Recommender übernimmt in io-port.net die Sortierung der Suchergebnisse nach einem vom Benutzer vordefinierten Arbeitskontext. Die im Umfeld des definierten Arbeitsgebietes relevanten Ergebnisse werden dann jeweils zu Beginn der Trefferliste angezeigt. Um das leisten zu können, vergleicht das Empfehlungssystem mithilfe semantischer Werkzeuge den persönlichen Arbeitskontext mit den Informationen in den gefundenen Publikationsdaten. Um die Recommender-Funktion nutzen zu können, muss der Document Manager verwendet werden. Dabei handelt es sich um ein Werkzeug für den Aufbau einer persönlichen Dokumentensammlung, mit dem das semantische Annotieren von Dokumenten möglich wird. Hier stehen vor allem Fragen wie beispielsweise "Wie wichtig ist das Dokument für mich persönlich?" und "Welches sind die angesprochenen Themen?" im Vordergrund. Zusätzlich lässt sich angeben, in welcher Beziehung Dokumente zueinander stehen. (Dokument A ergänzt Dokument B.) Dem Benutzer wird dabei die Möglichkeit geboten, auf eine vordefinierte Ontologie (ein definiertes System von Relationen und Konzepten) zurückzugreifen und sich auf deren Basis seine ganz persönliche Wissensdatenbank aufzubauen. Schwerpunkt des Document Managers ist das Anlegen von Benutzerprofilen, die dann vom Empfehlungssystem genutzt werden können. Kernkonzept dieser Profile bilden die so genannten Whiteboards. Dabei handelt es sich um zweidimensionale Ebenen, auf denen Dokumente räumlich angeordnet werden. (Profile können nur angelegt werden, wenn mindestens ein Whiteboard existiert.) Auf dem Whiteboard lassen sich dann die Dokumente platzieren. Die eingefügten Dokumente werden als Karteikarten dargestellt, denen wiederum Kommentare zugewiesen werden können. Interessant ist vor allem, dass sich für ein und dasselbe Dokument unterschiedliche Karteikarten verwenden lassen. So kann man ein Dokument in verschiedenen Kontexten jeweils anders kommentieren. Die Einarbeitung in den Document Manager ist intuitiv und gut dokumentiert. (Wer sich mit Visualisierungstools für Datenbanken auskennt, wird sich sofort zurechtfinden.)
Vom Datenbank-Browser (DBL-Browser) wird man bei der Suche nach bibliografischen Daten unterstützt. Bei diesem Mensch-Maschine-Interface handelt es sich um einen Offline-Browser, der sich genauso intuitiv bedienen lässt, wie herkömmliche WWW-Browser. Der Datenbank-Browser wird lokal installiert und sendet seine Abfragen an io-port.net. Welche Datenquelle dabei verwendet wird, lässt sich über die Optionen einstellen. Entweder greift man auf io-port.net direkt zu oder man verwendet ein lokal gespeichertes Dokument. Der bei io-port.net herunterladbare Datenbank-Browser wurde speziell an dieses Suchportal angepasst, zeigt sonst aber keinerlei Unterschiede zum klassischen DBL-Browser. Für die Erfassung bibliografischer Daten steht der io-port-Editor zum Download bereit. Mit ihm lassen sich Publikationslisten nicht nur anlegen und verwalten, sondern auch eigene Publikationen erfassen, archivieren und nach io-port.net hochladen. Der io-port-Editor ist dabei in erster Linie ein Hilfsmittel für die einheitliche Datenerfassung mittels vordefinierter Wertelisten. Bereits während der Eingabe werden die Daten auf Korrektheit geprüft. Realisiert wird dies unter anderem über einen Vergleich mit den bereits erwähnten Wertelisten und die Kontrolle, ob korrekte LaTeX-Formeln verwendet wurden. Die möglicherweise vorhandenen Fehler lassen sich so noch vor der Veröffentlichung entfernen.
Digitale Bibliothek mit LNI-Reihe und EMISA-Publikationen
Allen Benutzern – also sowohl zahlenden wie auch nicht zahlenden – steht weiterführende Information zur Verfügung. Zusammengefasst ist sie unter dem Begriff (und gleichnamiger Überschrift auf der Startseite von io-port.net) Digitale Bibliothek. Dort wird dem interessierten Besucher das Informatik-Lexikon der Gesellschaft für Informatik bereitgestellt. Ferner erhält man Zugriff auf die Inhaltsverzeichnisse elektronischer Zeitschriften der GI. Derzeit beschränkt sich die Auswahl dort auf LNI-Proceedings, LNI-Dissertationen und Publikationen des EMISA-Forums. Einigen besonderen Disziplinen der Informatik werden eigene Themenseiten, die Experten aus der Community erstellen, gewidmet. Aktuell sind hier die Felder Bioinformatik, Business Process, E-Learning, Management, Referenzmodellierung und Software Engineering abgedeckt. Offensichtlich befindet sich dieser Bereich von io-port.net noch im Aufbau, was sich hauptsächlich an den noch recht spärlichen Informationen, die auf diesen Seiten zu finden sind, bemerkbar macht. Einen Einstieg bieten diese Themenseiten aber allemal. (Das FIZ [3] ist in diesem Bereich auf externe Redakteure angewiesen. Gute Autorinnen und Autoren sind stets willkommen.) Ebenfalls das Prädikat "im Aufbau befindlich" verdienen die von Anwendern veröffentlichten Publikationslisten. Momentan enthält dieser Bereich leider nur ganze vier Listen. Ein genauerer Blick auf diese lohnt sich aber: Schließlich lässt sich so ein Eindruck gewinnen, wie die eigenen Publikationslisten aussehen könnten. Bei der Suche über io-port.net werden die Inhalte der Listen allerdings nicht berücksichtigt, da es sich um ungeprüfte Quellen handelt.
Das Rennen macht ...
Im direkten Vergleich mit Google Scholar hat io-port.net eindeutig die Nase vorn. Das liegt nicht nur an dem "besseren" Datenbestand, sondern eben auch und vor allem an den semantischen Werkzeugen. Denn gerade die machen zu einem Großteil den Reiz und die Effektivität des neuen Informationsportals aus. Aber noch ein anderer entscheidender Aspekt spricht für io-port.net: io-port.net bietet Dienste für den Zugang sowohl zu kostenfreien als auch zu kostenpflichtigen Volltexten, was bei Google Scholar so eben nicht gegeben ist. Sparfüchse, die meinen, mit Google Scholar eine kostenlose Alternative zu Informationsportalen wie eben io-port.net gefunden zu haben, werden enttäuscht sein. Der Google-Suchdienst mag für einfache Recherchen bei denen es "nicht so drauf ankommt" ausreichen. Wissenschaftlich fundierte, geprüfte und aktuelle Ergebnislisten bieten jedoch nur Datenbanken und Portale wie io-port.net. Bleibt zum Abschluss noch die überaus interessante Frage nach den Kosten. Will man in den Genuss der Mehrwertdienste kommen, greift ein übersichtliches Lizenzmodell. Die anfallenden Gebühren richten sich danach, ob man eine Einzelplatzlizenz (125 Euro), eine Lizenz für eine Hochschule (800-1900 Euro) oder eine Unternehmenslizenz (800 bis 5000 Euro) erwerben will. Mitglieder der Gesellschaft für Informatik erhalten Sonderkonditionen: eine Einzelplatzlizenz kostet 50 Euro. Alle Lizenzen sind jeweils für ein Jahr gültig. io-port.net wird sich zur zentralen Anlaufstelle für Recherchen rund um Themen der Informatik entwickeln. In diesem Sinne: "Gute Einfälle sind Geschenke des Glücks." (Gotthold Ephraim Lessing).