Skip to content
Publicly Available Published by De Gruyter April 4, 2018

Wie kommt das Repositorium in die Suchmaschine?

Beate Rajski

Beate Rajski

ORCID logo EMAIL logo
From the journal ABI Technik

Beate Rajski ist Bibliothekarin an der TU Hamburg. Sie leitet in der Bibliothek die Abteilung Digitale Dienste und ist Referentin für Forschungsdaten. Aktuell ist sie im Rahmen des Programms „Hamburg Open Science“ der Hamburger Hochschulen Projektleiterin für das Forschungsdatenmanagement. Sie beantwortet die aktuelle ABI Technikfrage: Wie kommt das Repositorium in die Suchmaschine?

Viele wissenschaftliche Einrichtungen stellen Publikationen über ein eigenes Repositorium bereit. Die Publikationen sind meist mit guten Metadaten versehen, über einen persistenten Link verlässlich zitierbar und werden dauerhaft gespeichert. Genutzt werden sie aber erst, wenn sie dort angezeigt werden, wo Forschende suchen. Und das tun diese so gut wie nie im Repositorium selbst.

Repositorien bedienen deshalb eine spezielle Schnittstelle: OAI-PMH („Protocol for Metadata Harvesting“ der Open Archive Initiative). Mit diesem Protokoll wird die Interoperabilität für Metadaten aus Repositorien gewährleistet. Beliebige Dienste können über dieses Protokoll Publikationsdaten aus Repositorien sammeln und aggregiert zur Verfügung stellen. Bekannte Anwendungen sind Base oder WorldCat.org. Zu Aggregatoren, die für ein Repositorium besonders relevant sind, nehmen die Betreiber des Repositoriums in der Regel direkten Kontakt auf, um die Aufnahme sicherzustellen.

Mindestens genauso wichtig ist der Eintrag des Repositoriums in das Directory of Open Access Repositories unter opendoar.org. Hier können Aggregatoren gezielt relevante Repositorien finden und die dort hinterlegten technischen Informationen für die Nachnutzung auswerten. Das EU-Projekt OpenAIRE nutzt dies zum Beispiel für die Zusammenführung von Open Access Veröffentlichungen in der EU.

Trotzdem ist OAI-PMH ein Standard, der außerhalb der bibliothekarischen Welt so gut wie unbekannt ist. Für viele Forschende ist Google Scholar der erste Einstiegspunkt für die Suche nach wissenschaftlichen Artikeln. Google Scholar stellt nicht nur die Daten zu Tausenden von Verlagspublikationen bereit, sondern durchforstet systematisch die Webseiten wissenschaftlicher Einrichtungen auf der Suche nach Veröffentlichungen, die in den Index aufgenommen werden können. Daraus ergibt sich für die meisten Repositorien die komfortable Situation, dass die enthaltenen Publikationen mit kurzem Verzug auch in Google Scholar angezeigt werden.

Für eine optimale Darstellung in Google Scholar ist bei den Repositorien Optimierungsaufwand notwendig. Dies beginnt mit der Sitemap, die als maschinenlesbares Inhaltsverzeichnis dient. Sie enthält Links auf alle Seiten, die die Suchmaschinen erfassen sollen. Dazu gehört auch die Angabe des letzten Änderungsdatums. Die Links aus der Sitemap führen zu den sogenannten Landing Pages. Dies sind die Seiten, die in einem Repositorium eine Veröffentlichung möglichst umfassend mit Metadaten beschreiben. Landing Pages können so unterschiedlich sein wie die Zielgruppen, für die sie entworfen wurden, eine Suchmaschine erwartet aber standardisierte Daten. Um dem Rechnung zu tragen, schreiben Repositorien die beschreibenden Metadaten und den Link zum Volltext zusätzlich versteckt als „<meta>“-Tags in den maschinenlesbaren HTML-Header der Seite.

Google Scholar übernimmt diese Daten für seinen Index. Je vollständiger die Meta-Tags sind, desto verlässlicher kann die Suchmaschine verschiedene Quellen einer Veröffentlichung zusammenführen und im besten Fall zu einem kostenpflichtigen Artikel den Link zur Open Access Version aus einem Repositorium anbieten. Gleichzeitig werden auch Volltexte bis zu einer Größe von 5 MB in den Index aufgenommen und dadurch über Google Scholar auffindbar.

About the author

Beate Rajski

Beate Rajski

Published Online: 2018-4-4
Published in Print: 2018-4-25

© 2018 by De Gruyter

Downloaded on 5.12.2022 from frontend.live.degruyter.dgbricks.com/document/doi/10.1515/abitech-2018-0017/html
Scroll Up Arrow