Zusammenfassung
Das von der DFG geförderte Projekt LibRank erforscht neue Rankingverfahren für bibliothekarische Informationssysteme, die aufbauend auf Erkenntnissen aus dem Bereich Websuche qualitätsinduzierende Faktoren wie z. B. Aktualität, Popularität und Verfügbarkeit von einzelnen Medien berücksichtigen. Die konzipierten Verfahren werden im Kontext eines in den Wirtschaftswissenschaften häufig genutzten Rechercheportals (EconBiz) entwickelt und in einem Testsystem systematisch evaluiert. Es werden Rankingfaktoren, die für den Bibliotheksbereich von besonderem Interesse sind, vorgestellt und exemplarisch Probleme und Herausforderungen aufgezeigt.
Abstract
The project explores new approaches to relevance ranking in library information systems. Based on insights into the ranking of web search engines, quality-indicating factors, e. g. freshness, popularity and availability, are taken into consideration. The conceptualized methods are being implemented into a test system based on a library’s search portal (EconBiz) and systematically evaluated. Ranking factors suitable to library information systems are discussed with problems and challenges pointed out.
1 Ausgangslage
In der heutigen Zeit ist das Informationssuchverhalten stark geprägt von Websuchmaschinen wie Google, Bing oder Yahoo. Studien zeigten auf, dass Nutzer in der Regel ihre Suchanfragen mit einer geringen Anzahl von Suchbegriffen formulieren und dabei die Treffer auf der ersten Seite einer Trefferliste[1] favorisieren, zumeist sogar lediglich die ersten drei Treffer.[2] Der Grund hierfür liegt in dem Vertrauen in die Suchmaschinen, dass die Suchergebnisse, die am besten zur Suchanfrage passen, also die vermeintlich größte Relevanz besitzen, zuerst angezeigt werden und die weniger relevanten Treffer auf den hinteren Rängen zu finden sind.[3]
Das Suchverhalten und die Erwartungen der Nutzer an die Trefferdarstellung sind allgemein auf den Bibliothekskontext übertragbar.[4] Nutzer sind an die einfache Suchoberfläche (den sogenannten „Google-Suchschlitz“) gewöhnt[5], die erweiterte Suchmaske wird vergleichsweise selten bzw. seitens der Informationsexperten verwendet. Auch hier umfassen die Suchanfragen durchschnittlich nicht mehr als zwei bis drei Suchbegriffe.[6] Dabei werden Voreinstellungen, z. B. die automatische UND-Verknüpfung der Suchbegriffe, in der Regel nicht verändert.[7] Ebenso werden die Treffer auf den oberen Rängen stark präferiert.[8]
In traditionellen Bibliothekskatalogen (OPACs) werden die Suchergebnisse üblicherweise innerhalb eines Bestandes nach Erscheinungsjahr sortiert – das Relevanz-Ranking folgt hier lediglich einem relativ starren Muster. Die Erwartungen an die Trefferdarstellung sind jedoch nicht nur in Bezug auf das Ranking geprägt, auch die Qualität der Suchergebnisse lässt Defizite erkennen. Dies ist damit zu begründen, dass das Retrieval in traditionellen OPACs auf Basis des Boole’schen Modells und des exact-match-Ansatzes funktioniert, wodurch nur die Dokumente (bzw. Dokumentrepräsentationen) gefunden werden, die mit den Suchbegriffen (syntaktisch) exakt übereinstimmen. Es ist jedoch lange bekannt, dass Nutzer ohne bibliothekarisches Wissen mit der richtigen Verwendung von Boole’schen Operatoren nicht vertraut sind und daher die Suchanfrage oft nicht zufriedenstellende Ergebnisse liefern kann.[9] Im Gegensatz dazu verfolgen Suchmaschinen den Ansatz des best match[10]: Mithilfe linguistischer Verfahren können Suchbegriffe (syntaktisch) modifiziert werden, sodass auch Trefferdokumente erscheinen, die ähnliche Begriffe enthalten, z. B. erzielt die Anfrage „statistische Methoden“ auch Treffer mit dem Begriff „Statistik“. Durch semantische Erweiterungen können beispielsweise auch Synonyme mitberücksichtigt werden, ohne dass die Suchanfrage durch ODER-Verknüpfungen künstlich erweitert werden muss.
Damit OPACs langfristig den Nutzererwartungen gerecht werden können, gilt es, die technologischen Möglichkeiten hinsichtlich Suche und Relevanz-Ranking gezielt auszuschöpfen.[11] Mit dem Einsatz von Suchmaschinentechnologie in Bibliothekssystemen wurde begonnen, diesem Defizit entgegenzuwirken.[12] Die sogenannten Kataloge der nächsten Generation (auch Next Generation Catalogs oder Discovery Systeme) ermöglichen bereits die Suche in elektronischen Dokumenten durch Volltextindexierung sowie den direkten Zugriff auf lizenzierte oder frei verfügbare Inhalte, die mit dem traditionellen Bibliothekskatalog als Nachweisinstrument der analogen Bestände nicht sichtbar sind. Mithilfe dieser integrativen Systeme wird Nutzern die Suche über das gesamte Bibliotheksangebot ermöglicht, ohne dass diese die unterschiedlichen Datenquellen manuell ansteuern müssen.
Such- und Zugriffsmöglichkeiten weisen dadurch eine höhere Qualität auf, jedoch werden die Erwartungen an das Ranking nur teilweise erfüllt. Die einzelnen Algorithmen, die dem Ranking in Software-Tools, wie beispielsweise in den kommerziellen Lösungen Summon von ProQuest (ehemals als Serviceangebot von Serials Solutions) oder Primo von ExLibris, zugrunde liegen, sind weder vollständig transparent noch von den jeweiligen bibliothekseigenen IT-Abteilungen ohne Weiteres anpassbar. Zwar kommen durch den zunehmenden Einsatz von Suchmaschinen wie Lucene/SOLR mittlerweile auch deren standardmäßig verwendete Rankingparameter und -scores zum Einsatz (vorzugsweise der textstatistische tf/idf-Algorithmus), jedoch wurde bisher keine systematische Evaluierung der überhaupt infrage kommenden oder verwendeten Rankingfaktoren durchgeführt. An diesem Punkt setzt das Projekt LibRank an.
2 Ziele und Methodik von LibRank
Das Ziel des Projektes ist die Entwicklung von neuartigen Rankingverfahren für Bibliotheksinformationssysteme auf Basis von Suchmaschinentechnologie und entsprechendem Nutzerverhalten. Hierbei sind zum einen qualitätsinduzierende Faktoren, wie z. B. Aktualität, Popularität und Verfügbarkeit von einzelnen Medien, zu berücksichtigen, zum anderen müssen die Suchtreffer den Nutzererwartungen entsprechend präsentiert werden. Die Bereitstellung eines Demonstrators, mit dem Bibliotheken und Wissenschaftseinrichtungen die für ihre eigenen Daten optimalen Rankingfaktoren ermitteln können, ist ebenfalls Ziel des Projekts. Neben dem Demonstrator werden auch die während des Projekts aufgebauten Testkollektionen zum Zweck der Transparenz und Nachnutzbarkeit bereitgestellt.
Die Deutsche Forschungsgemeinschaft (DFG) fördert das Gemeinschaftsprojekt LibRank[13] seit März 2014 für die Projektlaufzeit von zwei Jahren. Das Projekt wird gemeinsam mit der Hochschule für Angewandte Wissenschaften Hamburg (HAW) und der Deutschen Zentralbibliothek für Wirtschaftswissenschaften (ZBW) durchgeführt, womit Kompetenzen aus der Informationswissenschaft und -praxis gebündelt werden. Auf der Grundlage der genannten wissenschaftlichen Ziele wird grundsätzlich die Verbesserung des Rankings in dem ZBW-eigenen Fachportal EconBiz[14] angestrebt. Mit dieser Anwendung können die konzeptuellen Überlegungen unter realen Praxisbedingungen getestet und das Relevanzmodell als Projektergebnis schließlich in EconBiz – bzw. angesichts seiner prinzipiellen Übertragbarkeit auch in anderen bibliothekarischen Informationssystemen – implementiert werden.
Zur Erreichung dieser Ziele wurden zunächst für den Bibliothekskontext mögliche Relevanz-Rankingfaktoren identifiziert (siehe Abschnitt 4), für deren Aufstellung die grundlegenden Konzepte und Ideen von Ranking in Websuchmaschinen untersucht wurden. Diese Rankingfaktoren werden im weiteren Projektverlauf mithilfe eines gewichteten Relevanzmodells in einem auf dem EconBiz-Datenbestand basierenden Testsystem systematisch evaluiert. Da EconBiz und allgemein moderne bibliothekarische Informationssysteme Suchmaschinentechnologie verwenden, konnte ein bereits getestetes Framework zur Evaluierung der Retrieval-Effektivität von Suchmaschinen[15] teilweise für die Evaluierung des EconBiz-Testsystems adaptiert und angepasst werden.
In den Testläufen werden mithilfe eines an der HAW entwickelten Tools zur Relevanzbewertung (Relevance Assessment Tool – RAT)[16] Suchanfragen an das Testsystem geschickt und die jeweiligen Suchergebnisse von Juroren nach ihrer Relevanz bewertet. Die Relevanzbewertungen werden analysiert und das Ranking bzw. die Gewichtungen einzelner Faktoren basierend auf den Ergebnissen des entsprechenden Testdurchlaufs angepasst und in dem darauffolgenden Durchgang erneut bewertet. Dabei werden die Rankingfaktoren sowohl individuell als auch in Kombination mit anderen Faktoren betrachtet, um einerseits die Faktoren mit dem stärksten Einfluss auf die Retrieval-Effektivität festzustellen und andererseits Korrelationen zu ermitteln.
Für die Bewertung der Suchergebnisse werden reale Suchanfragen aus EconBiz den Juroren mit einer kurzen Beschreibung des jeweiligen Informationsbedürfnisses präsentiert, wobei die Beschreibungstexte von Studierenden der Wirtschaftswissenschaften erstellt wurden, um das Informationsverhalten der Fachcommunity realitätsnah abzubilden. Ein Beispiel:
Suchanfrage: Prinzipal-Agenten-Theorie
Beschreibung: Was besagt diese Theorie und wo findet sie Anwendung?
Die Suchtreffer (Titeldatensätze, ggf. mit Abstract bzw. Beschreibung) werden in einer zufälligen, nicht dem Rankingalgorithmus entsprechenden Reihenfolge angezeigt, um eine mögliche Beeinflussung der Juroren auszuschließen. Dies geschieht vor dem Hintergrund, dass die Ergebnisse auf den ersten Positionen in einer Trefferliste in der Regel bevorzugt geklickt werden, wie bereits in Abschnitt 1 erwähnt. Die Juroren bewerten die Ergebnisse mithilfe eines im RAT implementierten Schiebereglers auf einer Skala von 0 (nicht relevant) bis zu 100 möglichen Punkten (höchst relevant). Diese Relevanzbewertungen werden neben den Suchanfragen und Trefferdokumenten als Testkollektionen nach Projektabschluss über ein geeignetes Repository zur Nachnutzung zur Verfügung gestellt.
3 Anwendungskontext EconBiz
Grundthema von LibRank ist die Übertragbarkeit von Beobachtungen und Methoden zum Informationsverhalten bei der allgemeinen Websuche auf ein bibliothekarisches Informationssystem. Hierfür wurde das wirtschaftswissenschaftliche Fachportal EconBiz aus verschiedenen Gründen ausgewählt:
Als Suchanwendung beinhaltet EconBiz den unseres Wissens nach größten offenen Suchindex (9,5 Millionen Titeldaten, Stand März 2015) für wirtschaftswissenschaftliche Fachinformationen, zu denen neben herkömmlicher Verlagsliteratur die in den Wirtschaftswissenschaften verbreiteten Arbeitspapiere sowie Veranstaltungshinweise gehören.[17] M. a. W., EconBiz liefert praktisch für jede fachlich einschlägige Suchanfrage eine gewisse Menge an Ergebnissen und somit überhaupt den Bedarf und die Notwendigkeit einer relevanzbasierten Sortierung zur Bewältigung des ‚information overload‘.
Insbesondere wenn man berücksichtigt, dass sich EconBiz als wirtschaftliches Fachportal an eine relativ spezielle Zielgruppe richtet, wird es mit monatlich zwischen 150 000 und 300 000 Besuchen gut genutzt.[18]
Gegenüber allgemeinen Websuchmaschinen ist die Nutzergruppe bei EconBiz nachweislich relativ homogen, vornehmlich bestehend aus wirtschaftsstudierenden und -forschenden Personen[19]. Damit erhöht sich im Prinzip die Wahrscheinlichkeit, dass eine für das Informationsverhalten dieser Zielgruppe optimierte Relevanzsortierung tatsächlich auch flächendeckend angenommen, zumindest aber analysiert werden kann. Die in dem Projekt durchgeführten Evaluierungsläufe lassen sich auf ein für die Nutzergruppe typisches – durch eine Reihe von internen Studien[20] bereits belegtes – Informationsverhalten abstimmen, so dass im Rahmen von LibRank keine zusätzlichen Studien zum Informationsverhalten durchgeführt werden müssen.
EconBiz basiert auf VuFind[21], einer Bibliothekssoftware zur facettierten Recherche in bibliothekarischen Metadaten, die wiederum auf der Suchmaschinentechnologie Lucene/SOLR aufsetzt. Aufgrund der Quelloffenheit des Systems ergibt sich die Möglichkeit bzw. Notwendigkeit, die Berechnung des Relevanz-Scores einzusehen und ggf. zu optimieren. Im Gegensatz hierzu sind bei den Discovery-Systemen kommerzieller Anbieter die Grundlagen und Verfahren zur Relevanzberechnung nur bedingt intransparent und veränderbar.[22]
Mit VuFind bzw. Lucene/SOLR als Open-Source-Basis ist eine Verbreitung, Nachnutzung und ggf. Weiterentwicklung der LibRank-Ergebnisse durch andere Informationseinrichtungen am ehesten gegeben: Die Software wurde dezidiert für die Verarbeitung bibliothekarischer Metadaten entwickelt und wird mittlerweile von einer Reihe entsprechender Einrichtungen eingesetzt.[23] Die auf GitHub gestellten (Weiter-)Entwicklungen dokumentieren darüber hinaus eine aktive Entwickler-Gemeinde.[24]
4 Relevanzfaktoren für bibliothekarische Informationssysteme
Bevor Faktoren für Relevanz-Ranking entwickelt werden können, ist die wissenschaftliche Durchdringung des Themas Relevanz unabdingbar. Da Relevanz von höchst subjektiver und dynamischer Natur ist, wird sie von jedem Menschen anders wahrgenommen: Sind Informationen für den einen relevant, sind sie es für eine andere Person nicht zwingend in gleichem Maße; selbst für denselben Informationssuchenden kann aktuell relevante Literatur zu einem späteren Zeitpunkt gänzlich irrelevant sein.[25] Nutzungskontexte und Informationsbedürfnisse ändern sich, wobei dies nicht notwendig durch eine Suchanfrage erkenntlich ist. Hier zeigt sich ein Merkmal von Information-Retrieval-Systemen (IRS): Informationsbedürfnisse können (noch) nicht in natürlicher Sprache ausgedrückt und an das IRS übermittelt werden[26], sondern sind zu einer Suchanfrage zu formulieren. Für viele Nutzer stellt dies eine große Herausforderung dar; beispielsweise knüpfen an dieser Stelle im Kontext Katalogsuche Bibliothekare als vermittelnde Instanzen an und geben Hilfestellungen bei der Recherche.
Aufgrund der subjektiven Aspekte bei der Informationsbeschaffung ist es ausgeschlossen, Relevanz aus rein objektiver, logischer Sichtweise heraus zu betrachten. Selbst das Ranking in Websuchmaschinen basiert lediglich auf wahrscheinlicher Relevanz[27], d. h. es existiert keine richtige oder falsche Relevanzsortierung von Dokumenten, weil Dokumente für jeden Informationssuchenden eine andere Relevanz besitzen können. Obwohl viele unterschiedliche Definitionen von Relevanz in der Literatur zu finden sind[28], fasst die folgende Aussage eine realistische Erkenntnis prägnant zusammen: „Nobody has to explain to users of IR systems what relevance is, even as they struggle (sometimes in vain) to find relevant stuff. People understand relevance intuitively.“[29]
Auf welche Weise Nutzer die Relevanz von Informationen beurteilen, wurde von Barry und Schamber bereits in den 1990er-Jahren analysiert. Sie identifizierten die folgenden zehn Kriterien:[30]
Depth/Scope/Specificity: Die Informationen sind ausführlich, beinhalten eine Zusammenfassung oder Interpretation.
Accuracy/Validity: Die Informationen sind genau, korrekt bzw. valide.
Clarity: Die Informationen werden klar und leicht verständlich präsentiert.
Currency: Die Informationen sind aktuell, auf dem neuesten Stand.
Tangibility: Die Informationen sind bewiesen, es werden harte Fakten genannt.
Quality of Sources: Die Quelle ist reputabel, vertrauenswürdig.
Accessibility: Der Zugang zu den Informationen ist ohne Anstrengungen oder Kosten möglich.
Availability of Information/Sources of Information: Die Informationen bzw. Quellen sind verfügbar.
Verification: Die Informationen sind konsistent oder werden durch andere Informationen innerhalb des Forschungsfelds oder der Disziplin gestützt.
Affectiveness: Die Informationen rufen eine emotionale Reaktion hervor, wie z. B. Vergnügen oder Unterhaltung.
Auf Basis dieser Relevanzkriterien lassen sich die Relevanzfaktoren bezüglich Ranking ableiten, jedoch sind sie nicht direkt auf die einzelnen Rankingalgorithmen übertragbar. Dennoch sind Faktoren wie Aktualität (currency) und Verfügbarkeit (availability) hier ebenso enthalten und werden im Folgenden neben vier weiteren Faktorengruppen vorgestellt.
Abb. 1 gibt zunächst einen Überblick über die sechs identifizierten Relevanzfaktorengruppen. Ausgehend von textstatistischen Verfahren, auf deren Basis überhaupt erst eine Treffermenge als Antwort jedes textbasierten IRS auf die vom Nutzer gestellte Suchanfrage generiert werden kann, schließen sich qualitätsinduzierende Faktoren an. Diese können hauptsächlich der Gruppe Popularität zugeordnet werden, wobei die Gruppen Aktualität sowie Standort & Verfügbarkeit ebenfalls einen Mehrwert für das Ranking darstellen. Die letzten beiden Faktorengruppen vereinen Dokumenteigenschaften und Informationen über den Hintergrund der Nutzer.

Gruppen von Rankingfaktoren
4.1 Textstatistische Verfahren
In textbasierten Retrieval-Systemen werden ausgehend von einer Suchanfrage die Suchbegriffe mit einer Dokumentenmenge abgeglichen und in letzterer passende Treffer vom IRS identifiziert (text matching). Die zwei gängigsten statistischen Rankingverfahren hierbei sind das Messen der relativen Häufigkeit eines Suchbegriffs in einem Dokument (term frequency – TF) und die inverse Dokumentenhäufigkeit (inverse document frequency – IDF), welche die relative Worthäufigkeit innerhalb einer Menge von Dokumenten berücksichtigt. Wichtig hierbei ist, dass die alleinige Häufigkeit eines Wortes nicht sehr aussagekräftig ist, denn Stoppwörter, z. B. Artikel, Konjunktionen usw., treten im Allgemeinen am häufigsten auf. Aus diesem Grund werden die Begriffe gewichtet – das meist genutzte Gewichtungsverfahren ist eine Kombination der beiden Methoden (TF-IDF), mit der seltene Wörter höher gewichtet werden, wie beispielsweise Eigennamen von Personen oder Ländern.[31]
Aufgrund dieser Gewichtung ist das exakte Auftreten der Suchbegriffe in der Reihenfolge, in der sie in der Suchanfrage gestellt wurden, nicht mehr ausschließlich erforderlich, da nun auch die teilweise Übereinstimmung der Begriffe zählt – also best match anstelle von exact match. Zwar wird die Reihenfolge von Begriffen auch weiterhin für die Gewichtung berücksichtigt, aber auch die Position der Suchbegriffe innerhalb des Dokuments und das Auftreten in einem Metadatenfeld spielen unter anderem eine große Rolle.[32] So wird beispielsweise das Titelfeld höher gewichtet als das Abstract und dieses wiederum höher als der eigentliche Text.
Websuchmaschinen und Discovery-Systeme im Bibliotheksbereich verwenden zwar Verfahren nach dem best-match-Ansatz, jedoch reichen textstatistische Methoden alleine nicht aus, um ein gutes Ranking zu erzielen. Insbesondere bei Bibliothekskatalogen stoßen textstatistische Verfahren schnell an Grenzen, da die Metadatenfelder im Vergleich zum Volltext zu wenig Text enthalten, als dass auf deren Basis die genannten Verfahren effektiv für das Relevanzranking angewandt werden können.[33] Zudem sind die Objekte in den heutigen Bibliotheksinformationssystemen sehr heterogen, da neben Metadaten zu gedruckten Büchern auch Artikel im Volltext oder Audiomaterialien enthalten sind. Aus diesem Grund ist ein Ranking, welches allein auf textstatistischen Verfahren beruht, nicht mehr zeitgemäß.
4.2 Popularität
Die begrenzte Reichweite von rein statistischen Verfahren zur Berechnung des Rankings haben die Gründer von Google bereits im Jahr 1998 mit der Entwicklung des PageRank-Verfahrens verdeutlicht.[34] Obwohl Googles Ranking-Algorithmus ständig weiterentwickelt wird, liegt das linkbasierte Ranking auch heute noch diesem komplexen System zugrunde. Linkbasiertes Ranking beruht auf der Annahme, dass das Ranking einer Webseite rekursiv aus dem Ranking der verlinkenden Seiten berechnet werden kann.
Die Qualität einer Website oder eines Dokuments kann als Popularitätsindikator gesehen werden, wobei Popularität dem Prinzip der „Weisheit der Vielen“[35] folgt: Je mehr Nutzer ein Dokument positiv bzw. als relevant bewerten, umso wahrscheinlicher ist, dass es auch für den einzelnen Nutzer relevant ist. Dieser Ansatz findet sich beispielsweise in der Klickhäufigkeit, d. h. wie häufig eine Webseite oder ein Dokument angeklickt, also geöffnet wurde, wieder. Allerdings sollte die Zahl der Klicks im Zusammenhang mit der Verweildauer betrachtet werden. Diese beruht auf der Annahme, dass Dokumente, die nach nur wenigen, d. h. zwei oder drei, Sekunden geschlossen werden, als irrelevant bewertet werden. Eine längere Verweildauer, z. B. von einigen Minuten, spricht jedoch für eine gewisse Relevanz und ist demzufolge als ein Indikator für Qualität anzusehen.[36] Ein wesentlich stärkerer Indikator als die Zahl der Klicks ist die Zahl der Downloads, da diese ein höheres Nutzungsinteresse implizieren als das reine Ansehen bzw. Öffnen von Dokumenten.
Die Nutzungshäufigkeit bzw. das Nutzungsinteresse zu analysieren, ist im Bibliotheksbereich bei weitem keine Neuerscheinung. Eine Form ist die Auswertung von Downloadstatistiken: Im Zusammenhang mit Bestandsaufbau und -pflege können Downloadzahlen elektronischer Dokumente wie Ausleihzahlen konventioneller Bibliotheksmaterialien ebenso als Maße für Rankingfaktoren dienen. So werden beispielsweise diejenigen Bücher, die unter Berücksichtigung des Themengebiets (siehe Schlagworte, Klassifizierung) häufiger ausgeliehen bzw. online aufgerufen werden als andere, inhaltlich vergleichbare Bücher, entsprechend höher gewichtet. Auf diese Weise rücken besonders beliebte Bücher zu dem gesuchten Thema auf den oberen Rängen der Trefferliste leichter in das Blickfeld der informationssuchenden Person. Ausleihzahlen als Popularitätsfaktor wurden z. B. an der Bibliothek der North Carolina State University, USA, im Zusammenhang mit Empfehlungen eingesetzt und getestet, mit dem Ergebnis, dass diese Form der Treffersortierung als zweithäufigste nach dem Faktor „Erscheinungsjahr“ großen Zuspruch fand.[37] Ausgewählte Popularitätsindikatoren wurden z. B. auch von den Bibliotheken der Universitäten Heidelberg (HEIDI)[38] und Bremen (E-Lib)[39] in das jeweilige Relevanz-Ranking integriert.
Neben der Nutzungshäufigkeit als Indikator für Qualität spielen im akademischen Kontext allgemein Zitationszahlen eine große Rolle. Für Zeitschriften sei hier exemplarisch der Journal Impact Factor[40] zu nennen, der Einfluss von Autoren kann z. B. mit dem h-Index[41] bemessen werden. Bibliometrische Methoden kommen insofern zur Anwendung, als dass – unabhängig von Rankingalgorithmen – auf vorhandene Maße zur Qualität, Autorität, Popularität oder Relevanz zurückgegriffen wird.
Ein Problem bezüglich der praktischen Umsetzung der oben genannten Faktoren besteht in der direkten Vergleichbarkeit und Übertragbarkeit: Es stellt sich beispielsweise die Frage, ob ein Download mit einer Ausleihe gleichzusetzen ist oder 20 Zitationen eines Aufsatzes doppelt so viel wiegen sollten wie zehn Zitationen eines anderen. Aus diesem Grund kann nicht nur ein einzelner Rankingfaktor das ausschlaggebende Maß für Popularität sein, sondern die Faktoren müssen in Kombination und mit Blick auf ihre Gewichtung betrachtet werden, auch um einer durch Mängel in der Datenbasis hervorgerufenen Benachteiligung bestimmter Dokumente (z. B. Bücher, die aus unterschiedlichen Gründen keine Ausleihzahlen haben, oder Artikel, für die keine Zitationsdaten vorliegen) entgegen zu wirken.
4.3 Aktualität
Die Sortierung von Suchergebnissen in traditionellen Bibliothekskatalogen erfolgt üblicherweise nach dem Erscheinungsjahr. Aktualität als Rankingfaktor ist somit kein neuer Ansatz, sondern neben der alphabetischen Sortierung die nächstliegende Methode. Dass diese sich bezüglich gedruckter Monografien und den Möglichkeiten der formalen Erschließung bewährt hat, lässt sich nicht bestreiten. Allerdings ist die Menge an Suchergebnissen, die heutzutage von Discovery-Systemen geliefert wird, wesentlich umfangreicher und Nutzer erwarten zudem eine durchmischte Trefferliste, also beispielsweise sowohl Monografien als auch Artikel aus (elektronischen) Zeitschriften, sowohl aus dem gedruckten Bestand der Bibliothek als auch aus den lizenzierten elektronischen Ressourcen.
Während die Fähigkeit, aktuelle Ergebnisse zu liefern, ein sehr wichtiges Qualitätsmerkmal von Suchmaschinen darstellt[42], sind im wissenschaftlichen Kontext die Informationsbedürfnisse oft nicht nur mit den aktuellsten Dokumenten zu befriedigen. Je nach Fachdisziplin, wie z. B. in der Philosophie oder historischen Wissenschaften, und in Abhängigkeit des individuellen Forschungs- bzw. Studieninteresses, nehmen ältere Werke einen besonderen Stellenwert ein (Klassiker). Zudem können Artikel auch nach etlichen Jahren (erneut) an Popularität gewinnen, wenn ein Themengebiet mit einem gewissen zeitlichen Abstand zum Erscheinungsdatum ein hohes Interesse innerhalb einer wissenschaftlichen Community weckt (hot topic).[43]
An dieser Stelle wird ebenfalls deutlich, dass nicht nur Faktoren innerhalb der Gruppe Popularität in Kombination berücksichtigt werden müssen – insbesondere in Verbindung mit Aktualitätsfaktoren (z. B. Publikationsjahr) sind diese von besonderer Bedeutung für das Relevanz-Ranking.
4.4 Standort und Verfügbarkeit
Die Nutzung von Standortdaten ist spätestens seit dem Aufkommen mobiler Endgeräte eine unverzichtbare Datenquelle für das Ranking in Suchmaschinen. Ein Beispiel: Jemand befindet sich in London und sucht mithilfe eines Smartphones den Begriff „Pizzeria“. Die Suchmaschine interpretiert diese Anfrage so, dass sie erwartungsgemäß die nächstgelegene Pizzeria in London als bestes Suchergebnis ausgibt, ungeachtet der eventuell sehr hohen Popularität einer Pizzeria in Rom. Der physische Standort des Nutzers und die Entfernung zum gesuchten Objekt beeinflussen in diesem Fall in hohem Maße das Ranking.[44]
Das Konzept von Standortberücksichtigung bei der Websuche lässt sich auch mit Blick auf Verfügbarkeitsinformationen auf den Bibliotheksbereich übertragen. Zum einen kann unterschieden werden zwischen dem Standort des Nutzers (vor Ort, also in den Räumen der Bibliothek bzw. im Netz der Bibliothek) und des Mediums generell (Erwerbungsdaten, Lizenzinformationen); zum anderen über die aktuelle Verfügbarkeit des Mediums (Ausleihdaten, Lizenzinformationen).
Im Rahmen von LibRank wird diesen Faktoren anhand der Berücksichtigung zweier Nutzermodelle Rechnung getragen (Tab. 1). Dabei legen wir die Annahme zugrunde, dass Nutzer, die sich nicht vor Ort befinden, elektronische Dokumente, die sofort verfügbar sind (durch lizenzierte E-Books bzw. E-Journals), bevorzugen, weil diese gegebenenfalls sofort das Informationsbedürfnis befriedigen.
Nutzermodelle und deren präferierte Dokumenttypen
Nutzermodell | Annahme über präferierte Dokumenttypen |
Nutzer ist vor Ort | Gedruckt und elektronisch |
Nutzer ist nicht vor Ort | Elektronisch |
Anhand dieser Rankingfaktoren zeigt sich, dass sich bestimmte Faktoren in Kombination und deren jeweilige Gewichtungen widersprechen können, da beispielsweise beliebte Bücher, die ohnehin hohe Ausleihzahlen verzeichnen, demzufolge höher gerankt werden, wodurch unter Umständen keine Exemplare verfügbar sind, was wiederum zu Frustration bei den Nutzern führen kann.[45] Generell muss bei der Kombination von unterschiedlichen Rankingfaktoren nicht nur deren bestmögliche (individuelle) Gewichtung, sondern das Ranking in seiner Gesamtheit betrachtet werden. Die richtige Balance zu finden, kann unter Umständen auch nur eine Kompromisslösung sein. „Learning to rank“-Ansätze, die demgegenüber auf ein prinzipielles Optimum bei der Parametrisierung und Gewichtung von Rankingfaktoren zielen[46], werden im Rahmen des Projekts nicht behandelt.
4.5 Dokumenteigenschaften
Faktoren dieser Gruppe bedienen sich der formalen Eigenschaften eines Informationsobjekts. Das Vorhandensein zusätzlicher Informationen generiert einen Mehrwert in Bezug auf die Relevanzbeurteilung, z. B. mithilfe von Abstracts[47] und Inhaltsverzeichnissen[48]. Auch das Verlinken von den der Publikation zugrundeliegenden Forschungsdaten kann als ein Merkmal für Qualität gesehen und als Rankingfaktor berücksichtigt werden. Weitere Faktoren dieser Gruppe sind das Dateiformat bzw. der Dokumenttyp und die Sprache des Dokuments, wobei die Sprache durchaus ein wichtiges Kriterium für Relevanz ist, da selbst das populärste, inhaltlich bestpassende, sofort und kostenfrei verfügbare Dokument nicht zwingend auch die höchste Relevanzbewertung erzielt, wenn der Inhalt vom Nutzer aus sprachlicher Sicht nicht verständlich ist.[49]
4.6 Nutzerhintergrund
Bereits bei der Anwendung von Popularitätsfaktoren werden teilweise Nutzungsdaten ausgewertet, die nach dem Prinzip der Weisheit der Vielen Rückschlüsse auf die wahrscheinlich vorhandenen Präferenzen eines Einzelnen ziehen lassen. Im Gegensatz dazu dienen hier Nutzerdaten als Grundlage für das Ranking. Hier geht es z. B. darum, den (akademischen) Hintergrund der Nutzer zu berücksichtigen: Beim „fachspezifischen Boosting“ werden Dokumente aus dem jeweiligen Forschungsumfeld höher gewichtet.[50]
Hinter dem Stichwort personalisiertes Ranking[51] verbirgt sich der Ansatz, individuelles Such-, Klick-, Lese-, Ausleih-, Nutzungsverhalten auszuwerten und Erkenntnisse daraus in das Ranking, angepasst auf den jeweiligen Nutzer, einfließen zu lassen. Die Voraussetzung hierfür ist einerseits die Zuordnung der Aktivitäten eines Nutzers zu demselben (Nutzungsprofil) und zum anderen sein Einverständnis, dass solche Daten gesammelt und verwendet werden dürfen. Dies kann beispielsweise mit der Anmeldung zu einem Bibliothekskonto erfolgen.
5 Herausforderung Datenheterogenität
Die fast zwangsläufig entstehende Heterogenität bei der Sammlung und Integration von (Meta-)Daten aus verschiedenen Quellen ist ein klassischer Topos verteilter bzw. aggregierender Informationssysteme[52] und auch bei EconBiz zu beobachten: Über die Hälfte der indexierten Daten stammen aus fremden Quellen (siehe Abb. 2, Stand: April 2015) und haben damit in der Regel – und nach allen praktischen Erfahrungen – verschiedene Metadatenformate bzw. unterschiedliche Ausprägungen desselben Metadatenelements. Durch das Aggregieren verschiedener, aber fachlich verwandter Datenquellen entstehen Duplikate, also Mehrfachnachweise zu einem Werk – auch dies erschwert eine auf textuelle Inhalte bezogene Relevanzbewertung.

Struktur des EconBiz-Index
Selbst die Daten innerhalb einer Quelle oder eines Schemas sind nur bedingt als homogen zu bezeichnen: Gerade für zur Beurteilung der inhaltlichen Relevanz wichtige Metadaten, wie z. B. „Abstract“ oder „Beschreibung“, sind nicht immer vorhanden, Deskriptoren bzw. Schlagwörter werden nicht einheitlich vergeben, oder es fehlen gerade im wissenschaftlichen Kontext wichtige Informationen, wie die Klassifikation eines Artikels bzw. Journals als begutachtet. Schließlich liegen die für die textstatistische Relevanzbewertung wichtigen Volltexte nicht immer vor bzw. können als lizenzierte Verlagspublikationen zwar für die interne Relevanzberechnung einbezogen, den Nutzern nach außen jedoch nicht transparent zur Verfügung gestellt werden.
Dies berücksichtigend stellt sich die Grundfrage, wie die o. g. Heterogenitätsfaktoren möglichst ausgeblendet, minimiert oder kompensiert werden können. Der zunächst naheliegende Ansatz, die vorhandenen Metadaten zu vereinheitlichen, liegt angesichts des enormen redaktionellen Aufwands und der Masse an Metadaten außerhalb des Projekts und dürfte auch kein praktikables Vorgehen für andere Einrichtungen sein. Stattdessen verfolgen wir den Ansatz, bei den vorhandenen deskriptiven Metadaten vor allem auf die relativ „verlässlichen“, also statischen Daten, wie z. B. das Publikationsjahr, zurückzugreifen, sowie den vorhandenen Gesamtindex um weitere Metadaten möglichst flächendeckend anzureichern.
Zu Letzterem zählt, dass wir zum einen auf systemexterne, vor allem bibliometrische Relevanzfaktoren wie die Anzahl an Zitationen (Datenquelle: CitEc[53]) sowie – darauf aufbauend – den h-Index von Autoren zurückgreifen. Darüber hinaus haben wir auf systembedingte, vornehmlich webstatistische Relevanzfaktoren abgestellt, wie z. B. die Nutzung elektronischer Ressourcen in Form von Downloads, Ausleihzahlen oder die Verweildauer auf einer Einzeltrefferanzeige.
6 Fazit und Ausblick
Die Entwicklung und systematische Evaluierung von neuen Rankingverfahren ist durch eine hohe Komplexität gekennzeichnet: Die Identifikation unterschiedlicher Relevanzfaktoren wirft einerseits Fragen zur Datensammlung und -aufbereitung auf, zum anderen Fragen zur Operationalisierung von Relevanz in Bezug auf Qualität, Autorität und Popularität. Die Darstellung möglicher Relevanzfaktoren für bibliothekarische Informationssysteme zeigte auch, dass die Faktoren nur in Kombination betrachtet werden sollten und es auf ihre Gewichtung ankommt, damit das Relevanz-Ranking eine sinnvolle Sortierung liefert.
Erfolgreiches Relevanz-Ranking kann nur als ganzheitliches Konzept begriffen werden, in dem die Funktion von Relevanz, Kenntnisse über Nutzerverhalten, die Anwendung statistischer bzw. bibliometrischer Methoden und weitere Faktoren gleichermaßen erforscht werden. Eine Vielzahl an Entscheidungen muss bereits vor der eigentlichen Bestimmung des Relevanzmodells und der tatsächlichen Implementierung der Rankingalgorithmen getroffen werden, z. B. in Bezug auf das Sammeln und Aufbereiten von Download- und Klickdaten (Zeitraum) oder Möglichkeiten zur Integration vorhandener administrativer Kennziffern (z. B. Erwerbungs- und Zugangsdaten).
Nicht alle Problemstellungen und Ansätze können während der Projektlaufzeit differenziert untersucht werden. So schließen sich weitere Forschungsfragen an, z. B. das Thema alternative Metriken (altmetrics) in Bezug auf Popularität im Zusammenhang mit bibliometrischen Methoden.
Nach Ende der Projektlaufzeit wird ein Demonstrator inklusive der getesteten Rankingverfahren für eigene Analysen und Tests zur Verfügung gestellt.


© 2015 Walter de Gruyter GmbH, Berlin/Boston
This work is licensed under the Creative Commons Attribution-NonCommercial-NoDerivatives 3.0 License.