Skip to content
BY 4.0 license Open Access Published by De Gruyter May 7, 2022

Third-Party-Tracking bei Wiley und Springer

Analyse und Ausblick

Third-Party-Tracking at Wiley and Springer
Case studies and perspectives
Michael Freiberg ORCID logo
From the journal ABI Technik

Zusammenfassung

Die großen internationalen Wissenschaftsverlage sind wegen des Trackings auf ihren Webseiten zunehmend in Kritik geraten. Ihnen wird vorgeworfen, persönliche Daten über Wissenschaftlerinnen und Wissenschaftler und deren Aktivitäten im Netz zu sammeln, um diese zu monetarisieren. Dieser Beitrag zeigt, welche Tracking-Mechanismen in den Online-Angeboten von Springer Nature und Wiley eingesetzt werden, wie sie sich über den Browser unterbinden lassen und welche Konsequenzen sich daraus für wissenschaftliche Infrastruktureinrichtungen ergeben können.

Abstract

Recently, major international scientific publishers have been criticized for tracking on their websites. They are accused of mining personal data about scientists and their activities on the web in order to monetarize them. This article shows which tracking methods Springer Nature and Wiley use on their websites, how a browser can block web tracking and the consequences that may arise for research infrastructures.

1 Einleitung

Die seit geraumer Zeit in Zeitungs-, Zeitschriften- und Blog-Artikeln geführte Diskussion über den Umgang von Verlagen mit den Online-Nutzungsdaten von Wissenschaftlerinnen und Wissenschaftlern thematisierte bisher vor allem technische Verfahren des Third-Party-Trackings, die Geschäftsmodelle der Datenökonomie und ihre Anwendung im Bereich der wissenschaftlichen Informationsstrukturen, außerdem rechtliche Aspekte, Risiken für die Forschung und nicht zuletzt den daraus resultierenden Handlungsbedarf. Hervorzuheben sind die Beiträge von Renke Siems, der ursprünglich in der Mailingliste InetBib als Reaktion auf die Rahmenvereinbarung der Max Planck Digital Library (MPDL) zum Nature-Transformationsvertrag auf das Problem aufmerksam machte und nach dem Vorbild des US-amerikanischen Bibliothekars Cody Hanson die auf der Nature-Website eingesetzten Tracker offenlegte.[1] Im Forum Bibliotheksrecht des vergangenen Bibliothekartags (15. bis 18. Juni 2021 in Bremen) stellte er das Thema ausführlicher in einem Vortrag vor,[2] daneben in mehreren Artikeln,[3] zum Teil in Ko-Autorenschaft mit dem Neurobiologen Björn Brembs und dem Literaturwissenschaftler Gerhard Lauer. Andere Diskussionsbeiträge referieren die Argumente und Quellen der Diskursinitiatoren, was weitgehend auch für das Informationspapier des AWBI der DFG gilt.[4] Der Beitrag der Philosophin Petra Gehring, zum aktuellen Zeitpunkt Vorsitzende des Rats für Informationsinfrastrukturen (RfII), setzt sich davon ab, indem er das Tracking in die Gesamtlage des „digitalen Forscherhandelns“ einordnet und in Hinblick auf die Neuverhandlungen der DEAL-Verträge vertragliche Korrekturen anmahnt, die das Geschäft mit den Nutzungsdaten von Wissenschaftlerinnen und Wissenschaftlern verhindern sollen.[5]

Der hier vorgelegte Artikel versteht sich als Fortführung und Vertiefung der Tracking-Analysen von Cody Hansen und Renke Siems und nimmt zunächst die Praktiken des Third-Party-Trackings, auch am konkreten Beispiel der Websites von Springer Nature und Wiley, genauer unter die Lupe und zeigt, was auf technischer Ebene passiert, das heißt, welche Informationen zwischen Browser und Anbieter ausgetauscht werden. Weiterhin werden Mechanismen zur Abwehr des Third-Party-Trackings vorgestellt. Wie sich Funktionalität und Aussehen der Seiten der beiden Großverlage nach der Aktivierung unterschiedlicher Schutzmaßnahmen darstellen, wird am Ende des Beitrags beschrieben.

2 Was ist Third-Party-Tracking?

Im Unterschied zum First-Party-Tracking, bei dem eine Website selbst Cookies setzt, um ihre Nutzenden wiederzuerkennen und um ihr Surfverhalten zu analysieren, sind beim Third-Party-Tracking Drittanbieter involviert, die auf unterschiedliche Weise in die Website des Betreibenden, also der First-Party, eingebettet sind. Diese Drittanbieter sind auf vielen Websites eingebunden und teilen die dort gesammelten Daten untereinander. User und Endgeräte werden damit bei ihren Website-Besuchen identifiziert und ihre Wege durch das Netz nachvollzogen. Die Implementierungen des Third-Party-Trackings reichen von serverübergreifenden Cookie-Sessions über Tracking Pixel bis hin zum Fingerprinting.[6]

Abb. 1: Schematische Darstellung des Third-Party-Trackings (Grafik: Michael Freiberg)

Abb. 1:

Schematische Darstellung des Third-Party-Trackings (Grafik: Michael Freiberg)

3 Welche Techniken gibt es?

Third-Party-Cookies stammen also nicht von der Website selbst, sondern werden von einem Dritten gesetzt, z. B. von einem Tracker oder Werbetreibenden. Werden nach Besuch der Website, auf der das Third-Party-Cookie ursprünglich gesetzt wurde, weitere aufgerufen, auf denen der gleiche Tracker eingebunden ist, werden serverübergreifende Cookie-Sessions erstellt, in denen die besuchten Websites, aufgerufene Unterseiten, die Verweildauer und, wenn vorhanden, personenbezogene Daten wie Standort und Alter gespeichert werden können, um individuelle Profile zu erstellen.

Tracking Pixel sind unsichtbar und werden technisch meistens als transparente Ein-Pixel-Bilder realisiert, die auf dem Server des Drittanbieters liegen und von der Website der First-Party abgerufen werden. Wird eine solche Ressource vom Browser abgefragt, werden, wie bei jeder Anfrage über das HTTP-Protokoll, Informationen zwischen Client und Server ausgetauscht. Einige dieser Daten im HTTP-Header eignen sich zur Individualisierung der abfragenden Clients und letztendlich ihrer Nutzerinnen und Nutzer, darunter Angaben zum Betriebssystem und zum eingesetzten Browser, die Adresse der zuvor besuchten Seite (Referrer URL), Spracheinstellungen sowie die vom Browser unterstützten Medientypen und Kompressionsverfahren. Der Server protokolliert zusätzlich Datum und Uhrzeit des Aufrufs und die IP-Adresse des Clients. Wie bei den Third-Party-Cookies gilt hier, dass Tracking Pixel eines Anbieters oder vielmehr Anbieternetzwerks auf unzähligen Websites integriert werden, so dass Seitenbesuche von einer identischen IP-Adresse oder von Geräten mit gleichen Informationen im HTTP-Header nachvollzogen werden können.

Geofencing und IP-Targeting sind zwei ineinandergreifende Verfahren. Die Möglichkeit der geographischen Zuordnung von IP-Adressen und -Adressräumen über die registrierten Daten ihrer Verwalter, zu denen neben Internetprovidern auch Universitäten zählen, ist längst gegeben. Die Netznutzung über einen Internetprovider lässt sich auf diese Weise dem Ort des Einwahlknotens zuordnen, der nicht mit dem Standort des Geräts übereinstimmen muss. Im Falle eines Hochschulnetzes ist die Lokalisierung genauer, da hier die Adresse des Einwahlknotens öffentlich bekannt ist und mit dem Gerätestandort übereinstimmt. Der geographische Zaun (engl. fence) um die Nutzenden ist also deutlich enger gezogen. Die Zuordnung lässt sich über mobile Geräte noch verfeinern, da sie von Mobilfunk- und WLAN-Netzknoten, RFID-Antennen und je nach Geräteeinstellungen über GPS-Daten registriert werden können. Die dadurch mögliche gezielte, standortbezogene Übermittlung von Inhalten über die IP-Adresse wird als IP-Targeting bezeichnet und kann nicht nur bestimmte Geräte, sondern auch hinter den IP-Adressen stehende Haushalte, Betriebe, Institutionen und deren Subnetze wie auch Fachbereiche und Bibliotheken adressieren. Erwerbungsabteilungen werden womöglich das sogenannte Dynamic Pricing von einschlägigen Buchhandels- und Antiquariatsportalen kennen, wenn sie vergriffene und seltene Titel zu horrenden Preisen vorfinden, zu denen offenbar bereits ein Interesse registriert wurde.

Über das Browser Fingerprinting werden mit Hilfe unterschiedlicher Schnittstellen (JavaScript, HTML-Canvas-Elemente, WebGL, Web Audio API) browserspezifische Merkmale abgefragt, deren individuelle Kombination so eindeutig wie ein Fingerabdruck sein kann.[7] JavaScript liefert unter anderem Informationen über installierte Schriftarten, die Bildschirmauflösung und zahlreiche Browser-Einstellungen. Eine weitere Methode des Fingerprintings ist die Erstellung von verborgenen Grafiken, die je nach Software- und Hardware-Ausstattung des Geräts kleine Unterschiede aufweisen. Das in HTML 5 eingeführte Canvas-Element zum Zeichnen von 2D-Grafiken auf Webseiten wird zum Beispiel für das Fingerprinting missbraucht, indem unbemerkt auf einer nicht-sichtbaren Zeichenoberfläche (Canvas) Text- und Bildelementen erstellt werden (siehe Abb. 3). Je nach Hardware, Betriebssystem und Browser fällt diese Grafik leicht anders aus. In der Folge wird die Grafik ebenfalls unbemerkt heruntergeladen, aus ihr ein individueller Hashwert berechnet, der schließlich zur Speicherung und zum späteren Abgleich in der Fingerabdruck-Datenbank des Anbieters gesichert wird. Mit der WebGL-Programmierschnittstelle zur Darstellung von 3D-Grafiken können noch präzisere Fingerabdrücke generiert werden, da die Berechnung von 3D-Grafiken stärker von der jeweiligen Grafik-Hardware geprägt wird. Auch Hersteller und Modell der Hardware können über die WebGL-Schnittstelle abgefragt werden. Relativ neu ist das Fingerprinting über die WebAudio-API. Über diese Audio-Schnittstelle können nicht nur Informationen über die Audio-Hardware ausgelesen, sondern auch ein Oszillator generiert werden, dessen je nach Hardware anders ausfallende, stumme Ton-Wiedergabe im Hintergrund anschließend abgetastet und zur Generierung eines Hashwerts herangezogen wird.

Nicht unerwähnt bleiben soll das Port Scanning, also die Suche nach offenen Netzwerk-Ports auf dem zugreifenden Gerät, da es auch im Zuge der Diskussion über das Third-Party-Tracking der Verlage als Trackinginstrument aufgeführt wurde. Die jeweilige Port-Konfiguration eines Geräts, also die Information, welche Ports gerade offen und welche geschlossen sind, ist ein mögliches Individualisierungsmerkmal für das Fingerprinting.

4 Wie kann man Third-Party-Tracking verhindern?

Die oben beschriebenen Techniken des Third-Party-Trackings lassen sich mit unterschiedlichen, je nach Umfang des gewünschten Schutzes miteinander kombinierbaren Maßnahmen unterbinden. Die Schutzmechanismen verändern allerdings auch die Darstellung und die Funktionalität der Online-Angebote.

Zunächst lässt die Website die Besucherin oder den Besucher regeln, welche Cookies auf dem Gerät abgelegt werden dürfen. Durch die Vorgaben der EU-Cookie-Richtlinie und das sie bestätigende Urteil des Bundesgerichtshofs sind Webseitenbetreibende dazu verpflichtet, die vorherige Zustimmung (Opt-In) zum Setzen nicht-technischer Cookies wie Tracking-Cookies einzuholen. Eingeholt wird die Zustimmung über Cookie-Disclaimer oder Cookie-Consent-Banner, in denen man alle bis auf die technisch notwendigen Cookies deaktivieren sollte.[8]

Tab. 1:

Auszug aus dem Netzwerkprotokoll von uBlock Origin beim Abruf des Journal of the Association for Information Science and Technology (JASIST) in der Wiley Online Library. Gezeigt werden hier nur einige der Third-Party-Hosts (Tabelle: Michael Freiberg)

Ressourcentyp

Third-Party-Host

Abgerufene URL (zum Teil gekürzt)

Skript

3gl.net

https://g.3gl.net/jp/1084/v3.2.1/M

Skript

addthis.com

https://s7.addthis.com/js/300/addthis_widget.js#pubid=ra-51225be51b56b4c4

Skript

adobedtm.com

https://assets.adobedtm.com/6e626c9ec247e474f6b98eb15a79a185cf7e26a5[…]

Skript

cloudflare.com

https://cdnjs.cloudflare.com/ajax/libs/jQuery.dotdotdot/1.8.3/jquery.dotdotdot.min.js?_=1648803969284

Skript

cloudflareinsights.com

https://static.cloudflareinsights.com/beacon.min.js/v652eace1692a40cfa3763df669d7439c1639079717194

Skript

cloudfront.net

https://d2gt2ux04o03l1.cloudfront.net/

Skript

googletagservices.com

https://www.googletagservices.com/tag/js/gpt.js

Skript

grapeshot.co.uk

https://wiley.grapeshot.co.uk/main/channels.cgi?url=https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.23224

Skript

krxd.net

https://cdn.krxd.net/controltag?confid=JMOONjNh

Skript

onecount.net

https://validate.onecount.net/js/all.min.js#cff4b10c3a3d5cc9bbb7e2b9292cc66eae1deafa

Skript

onecount.net

https://validate.onecount.net/onecount/automation/a.php?__cuuid=cff4b10c3a3d5cc9bbb7e2b9292cc66eae1deafa[…]

Bild

onecount.net

https://validate.onecount.net/onecount/oc_track/tracker.php?__cuuid=cff4b10c3a3d5cc9bbb7e2b9292cc66eae1deafa[…]

Skript

osano.com

https://cmp.osano.com/AzZdRbSORDOOzF9W/67a788d8-9344-4c9b-a3c2-89b5073ee231/osano.js

Skript

pingdom.net

https://rum-static.pingdom.net/prum.min.js

Skript

riskified.com

https://beacon.riskified.com/?shop=https://asistdl.onlinelibrary.wiley.com&sid=aaa5h82zW1oJa53fqcK-x

Skript

unpkg.com

https://unpkg.com/@theidentityselector/thiss-ds@1.0.13/dist/thiss-ds.js

Skript

youtube.com

https://www.youtube.com/iframe_api

Skript

youtube.com

https://www.youtube.com/s/player/449ea0a5/www-widgetapi.vflset/www-widgetapi.js

Skript

youtube-ui.l.google.com

https://youtube-ui.l.google.com/

Eine weitere niedrigschwellige Option ist die Aktivierung der im Browser integrierten Schutzmechanismen. Die Computer-Fachzeitschrift c’t hat im Juni 2021 „die Desktop-Browser Brave, Chrome, Edge, Firefox, Opera, Safari und Vivaldi einem Privacy-Check unterzogen“.[9] Mozillas Firefox und Apples Safari erhielten eine gute Bewertung, wohingegen Chrome, Edge und Opera nur zufriedenstellend oder sogar schlecht abschnitten. Allein der in Hinblick auf den Schutz der Privatsphäre optimierte Browser Brave erhielt eine sehr gute Bewertung und ist auch der einzige Kandidat, der das Fingerprinting durch das Verfälschen (Spoofing) von browser- und gerätespezifischen Eigenschaften unterbindet.[10]

Die Ergebnisse des c’t-Tests können im Fall der zum Zeitpunkt des Verfassens dieses Beitrags neuesten Versionen der Browser Firefox, Brave und Edge bestätigt werden. Die drei Browser wurden den Online-Tests AmIUnique,[11] Browserleaks[12] und „Cover your Tracks“ der Electronic Frontier Foundation (EFF)[13] unterzogen. AmIUnique prüft die auf dem benutzten Gerät vorhandenen Möglichkeiten des Fingerprintings, listet die vom Browser offengelegten Geräteeigenschaften auf und stellt fest, ob ein eindeutiger Fingerabdruck vorliegt. Der Test von Browserleaks bietet noch weitere Möglichkeiten, z. B. kann man sich seine IP-Adresse und die ihr zugeordnete Geolokalisierung ansehen. „Cover your Tracks“ prüft zusätzlich dazu den Schutz vor Trackern und gibt für jedes Identifikationsmerkmal, z. B. die spezifische Grafik-Hardware des Geräts, an, ob es in dieser Ausprägung selten oder häufig vorkommt. Je seltener das Merkmal, desto leichter sind Gerät und Browser zu identifizieren.

Wer seinen bevorzugten Browser nicht wechseln möchte oder auch am Arbeitsplatz an einen bestimmten gebunden ist, kann den Schutz vor Tracking durch die Installation von Browser-Erweiterungen deutlich verbessern. uBlockOrigin[14] ist ein für viele Browser frei verfügbarer, quelloffener Plug-In, der Tracker auf Basis von Filterlisten blockiert. Diese im Netz frei verfügbaren Filterlisten wie z. B. EasyList[15] können durch eigene Blockierungsregeln ergänzt werden. Anfragen an Server, die in den Filterlisten vorkommen oder bestimmten URL-Mustern entsprechen, werden von uBlockOrigin blockiert. Das Protokoll der blockierten und zugelassenen Netzwerkanfragen kann in einem separaten Fenster geöffnet und analysiert werden. Weiterhin lassen sich Medienobjekte, Schriftarten und auch JavaScript global oder für einzelne Webseiten deaktivieren. Das Blockieren von Medien und Schriftarten unterbindet Tracking, da sie von Content Delivery Networks bereitgestellt werden, die nicht nur die Bilder oder Skripte einer Website bereitstellen, sondern umgekehrt auch Informationen über den anfragenden Client sammeln, analysieren und Werbepartnern zur Verfügung stellen. Gerade JavaScript bietet Trackern viele Möglichkeiten und Schnittstellen zum Fingerprinting und kann neben uBlockOrigin auch von anderen Erweiterungen wie NoScript[16] deaktiviert oder nur für bestimmte Websites zugelassen werden. Mit der Deaktivierung von JavaScript geht je nach Aufbau und technischer Umsetzung der Website auch eine deutliche Reduktion der Funktionalität und eine Modifikation der Darstellung einher. Hier ist also abzuwägen, ob der Schutz der Privatsphäre Vorrang hat.

Im Zuge der Tests für diesen Beitrag hat sich der Einsatz von uBlockOrigin bei deaktiviertem JavaScript als sehr wirksame Maßnahme gegen das Fingerprinting herausgestellt. Keiner der oben genannten Onlinetests konnte einen Fingerprint erstellen. Eine Anonymisierung ist dennoch nicht gegeben, da weiterhin die IP-Adresse an den angefragten Server kommuniziert wird. Eine Maßnahme zur Anonymisierung ist die Nutzung eines Browsers, der sich mit einem Tor-Netzwerk verbindet. Hierbei wird eine Liste von Proxy-Servern über einen Verzeichnisserver heruntergeladen, eine verschlüsselte Verbindung mit einem dieser Server aufgebaut, der wiederum eine Verbindungskette über mindestens drei weitere Server bis zu einem Austrittsknoten aufbaut, von dem aus dann die abgefragte Website abgerufen wird. Die Verbindungsstrecken werden laufend verändert, so dass sich nicht mehr nachvollziehen lässt, von welchem Klienten die ursprüngliche Abfrage stammt. Da die Authentifizierung für den Zugriff auf Fachdatenbanken, Verlags- und Zeitschriftenportale über die IP-Adresse erfolgt, ist deren Weitergabe dafür allerdings notwendig. Ein gewisser Grad an Anonymisierung ist jedoch auch dann möglich, wenn der Zugriff auf die elektronische Ressource über einen Proxyfizierungsdienst der Bibliothek, wie z. B. EZProxy erfolgt. Wählt man diese Variante, wird nicht die IP-Adresse des eigenen Rechners oder des Subnetzes beispielsweise einer Arbeitsgruppe übermittelt, sondern nur diejenige des Proxy-Servers aus dem Adressbereich der Bibliothek.

5 Third-Party-Tracking der Großverlage

Im Folgenden soll das Tracking auf den Webseiten von Springer Nature und Wiley genauer untersucht werden. Sie wurden stellvertretend für viele andere Verlage deshalb ausgewählt, weil sie zu den mächtigsten Akteuren zählen und als DEAL-Vertragspartner besonders im Fokus stehen. Die Analyse kann natürlich nur das mit Hilfe des Browsers und seiner Plug-Ins nachweisbare Tracking aufdecken und keine Aussagen über den weiteren Weg der Datenverarbeitung und -verteilung machen.

Die Wiley Online Library[17] ist der zentrale Einstiegspunkt für den Zugriff auf Zeitschriften, Datenbanken und E-Books von Wiley. Ein Cookie-Banner ist der Seite zwar nicht vorgeschaltet, jedoch befindet sich im Kopf der Seite ein Hinweis, dass man der Cookie Policy zustimmt, sobald man die Website nutzt. Diese Praxis ist nebenbei ein Verstoß gegen die oben bereits erwähnten Cookie-Banner-Urteile des EuGH und des BGH. In der Privacy Policy von Wiley wird erläutert, dass neben technisch notwendigen auch Third-Party-Cookies sowie „targeting cookies or advertising cookies“ gesetzt werden. Zu diesen wird weiter ausgeführt: „They may be used by such partners to build a profile of your interests and show you relevant adverts on other websites. […] These cookies do not store personal information directly but are based on uniquely identifying your browser and internet device.“[18] Über den Einsatzzweck von Cookies und das hier umschriebene Fingerprinting wird also informiert und weiterhin auch darauf hingewiesen, wie man in seinem Browser das Setzen von Cookies deaktiviert.

Abb. 2: Ein von der Wiley Online Library erstellter Canvas Fingerprint. Eingesetzt wurde das Picasso Canvas FingerprintingVgl. GitHub – antoinevastel/picasso-like-canvas-fingerprinting: Implementation of canvas fingerprinting based on the Picasso paper. https://github.com/antoinevastel/picasso-like-canvas-fingerprinting (22.02.2022). (Screenshot: Michael Freiberg)

Abb. 2:

Ein von der Wiley Online Library erstellter Canvas Fingerprint. Eingesetzt wurde das Picasso Canvas Fingerprinting[19] (Screenshot: Michael Freiberg)

Das Netzwerkprotokoll von uBlockOrigin zeigt, dass beim Aufruf der Wiley Online Library Skripte, Bilder und weitere Ressourcen von den folgenden Drittanbietern abgerufen werden: Google, Adobe, Catchpoint, Cloudflare, Grapeshot (zu Oracle gehörend), Krux, ONEcount und Pingdom. In Rückgriff auf die oben erläuterten Tracking-Mechanismen soll die Funktionsweise dieser Tracker beispielhaft kurz vorgestellt werden. Von Cloudflare stammen ausschließlich Bilder, also statische Inhalte, bei deren Anfrage jedoch Cookies und Informationen über den anfragenden Client übermittelt werden (siehe die Erläuterung zu Tracking-Pixeln weiter oben). Bei Cloudflare-Anfragen wird z. B. die Cookie-Variable rxVisitor übermittelt, die sich in der Dokumentation zum „Real User Monitoring“ des Cloud-Überwachungsdienstleisters Dynatrace wiederfindet,[20] oder die vom Audience Tool Adobe Experience Cloud „einer Sammlung von Programmen und Services […] zur [Ermöglichung] einzigartiger Kundenerlebnisse“[21] gesetzten und laut Adobe eindeutigen und persistenten Identifikatoren AMCV bzw. AMCVS.[22] Zu den Instrumenten der Adobe Experience Cloud gehört auch das Tag-Management, also die Verwaltung des automatisierten Implementierens von Code-Schnipseln (Tags) für das Tracking.[23] Die Wiley Online Library ruft über den Host adobedtm.com (DTM = Dynamic Tag Management) kleine Java-Skripte auf, die wiederum Skripte von HotJar (Aufzeichnung von Interaktionen wie Mausbewegungen), Google Tag Manager, LinkedIn und Facebook einbinden. Ein Canvas-Fingerprinting konnte mit der Browser-Erweiterungen Ninhidrina[24] festgestellt werden, einmal durch die Wiley-Website selbst und weiterhin von der darin eingebundenen „actionable customer data platform“ OneCount.[25] Wie mit der Browser-Erweiterung Behave![26] überprüft wurde, wird bei Wiley kein Port Scanning betrieben.

Die Springer-Website nature.com ist das zweite hier näher betrachtete Beispiel. Nach Aufruf der Seite öffnet sich ein großes Cookie-Banner, über das man entweder alle Cookies akzeptieren oder persönliche Einstellungen verwalten kann. Wie üblich können hier alle außer den technisch notwendigen Cookies deaktiviert werden, also auch jene von Drittanbietern. Details zu den eingesetzten Cookies und deren Verwendung können in der Cookie Policy von Springer nachgelesen werden.[27] Bleiben alle Cookies aktiviert, ist die Liste der über Bilder, Skripte und Ressourcen abgefragten und somit im Netzwerkprotokoll aufgelisteten Drittanbieter dennoch lang. Darin finden sich unter anderem die Marketingwerkzeuge von Google, Criteo, Improved Digital, AdTech, Bing, aber auch soziale Medien wie Facebook und nicht zuletzt Content Delivery Networks wie Akamai oder Fastly, deren Nachverfolgungsmechanismus mit den Tracking-Pixeln von Wileys Drittanbietern vergleichbar ist. Auf den Seiten von Springer Nature konnte weder Canvas-Fingerprinting noch ein Port Scanning festgestellt werden.

Exkurs: Neue Ansätze des First-Party-Trackings

Besonders hervorzuheben unter den auf den Springer-Seiten vorgefundenen Trackern sind die Anbieter Moat (zu Oracle gehörend) und Permutive. Mit ihnen kommuniziert die Website fortlaufend im Hintergrund und übermittelt über Tracking-Pixel den aktuell sichtbaren Ausschnitt der Seite und auch weitere Aktionen, die von der Nutzerin oder dem Nutzer ausgelöst werden. Permutive wirbt in einem Interview mit der Branchenzeitschrift „Exchange Wire“ damit, die Zukunft des digitalen Werbens in einer Ära nach dem Third-Party-Tracking zu sichern.[28] Hintergrund sind der zunehmend bessere technische Schutz durch Browser, gesetzliche Datenschutzvorgaben und auch ein gesteigertes Bewusstsein der Online-Kundschaft. Den neuen Ansatz kann man als Profilerstellung anhand von First-Party-Daten mit anschließender lokaler Speicherung im Browser beschreiben. Third-Party-Tracking wird umgangen, indem nicht mehr Cookies und Identifikatoren an einen Drittanbieter übermittelt werden, sondern anhand von Browser-Interaktionen ein Interessenprofil erstellt und verschlüsselt gespeichert wird. Da dieses Profil nicht auf einem Cloud-Server, sondern lokal erstellt wird, bezeichnet Permutive diesen Ansatz als dezentrales „Edge Computing“.[29] In dem für diesen Beitrag durchgeführten Test zeigte sich, dass in der IndexedDB, einer seit HTML5 gegebenen Option zur lokalen Speicherung von strukturierten Daten, eine mit einem Hashwert benannte Datenstruktur mit dem Ursprung „nature.com“ abgelegt wurde, die nach Interaktionen wie Scrollen oder dem Anklicken von Links zunehmend anwächst. Dieses Datenbank-Objekt enthält technisch gesehen eine „events“ benannte Reihe von Ganzzahlen, die wahrscheinlich die Interaktionen in verschlüsselter und daher anonymisierter Form enthält. Diese Bewegungs- und Interessenprofile werden sogenannten Kohorten zugewiesen, also Gruppen mit übereinstimmenden Profilmerkmalen, für die zielgruppenspezifische Inhalte bereitgestellt werden können. Welche Mitglieder der Kohorte aktuell auf der analysierten Seite unterwegs sind, kann laut Permutive übrigens in Echtzeit abgefragt werden.

6 Zugriffsmöglichkeiten auf die Inhalte von Springer und Wiley bei aktivierten Schutzmaßnahmen

Zunächst ist festzustellen, dass nach Ausschalten aller Cookies mit Ausnahme der technisch notwendigen im Privacy Center von Springer Nature in der Folge keine Anzeigen mehr auf der Website zu sehen sind und sich der Abruf von Drittanbieterinhalten auf die folgenden beschränkt: Content Delivery Networks (hier: Amazon AWS, Fastly und Cloudflare), CookieLaw (Dienstleister zur Verwaltung der nutzerseitigen Cookie-Einstellungen), Freshdesk (Dienstleister zur Integration eines Feedback-Formulars), Altmetric und den Google Tag Manager. Wie oben ausgeführt, kann das Abrufen von Ressourcen aus Content Delivery Networks, das als technisch notwendig ausgewiesen wird, auch zum Tracking eingesetzt werden.

Um dies zusätzlich zu unterbinden, können mit Hilfe von uBlockOrigin zwar alle Zugriffe der Springer Nature Websites auf Third-Party-Hosts geblockt werden, jedoch werden dann keine Bilder mehr angezeigt, auch keine Abbildungen in den Artikeln. Blockiert man nur Skripte von Drittanbietern, werden Formeln und Gleichungen nicht mehr grafisch, sondern in der Syntax der zugrundeliegenden Beschreibungssprache LaTeX dargestellt. Davon unabhängig kann auf die Artikel-PDFs auch mit diesen restriktiven Einstellungen zugegriffen werden. Deaktiviert man JavaScript, bietet sich das gleiche Bild wie beim Blockieren von Drittanbieter-Skripten, da von der Springer-Domain selbst ohnehin keine Skripte bereitgestellt werden. Der in Hinblick auf Datenschutz optimierte Browser Brave stellt die Website wie gewohnt dar und unterbindet den Zugriff auf alle Third-Party-Hosts ausgenommen CookieLaw und Google Tag Manager.

Wie weiter oben bereits ausgeführt, können in der Wiley Online Library keine Cookie- und Tracking-Einstellungen vorgenommen werden. Wer diese selbst steuert und in Firefox die strengen Datenschutzeinstellungen wählt oder über Brave die Seite aufruft, wird keine Einschränkungen wahrnehmen. Selbst das Blockieren aller Third-Party-Hosts über uBlockOrigin und sogar das Deaktivieren von JavaScript haben keine größeren Nebeneffekte, was die Anzeige der Artikel im Browser angeht. Wenn JavaScript unterbunden wird, können allerdings die Artikel-PDFs nicht mehr abgerufen werden, da diese zunächst in einem JavaScript-basierten Viewer angezeigt werden. Der Viewer lädt immer dann, wenn beim Lesen eine neue Seite im PDF erreicht wird, im Hintergrund erneut die Schriftarten des Dokuments und übermittelt dabei Tracking-Informationen (Variablen wie rxVisitor, RECOGNIZED_USER, MACHINE_LAST_SEEN). Dabei kann das Leseverhalten, wie z. B. die Verweildauer auf den Seiten, erfasst werden. Abgesehen von der PDF-Problematik zeigt sich im Vergleich mit Springer Nature, dass Funktionalität und Aussehen der Seiten von Wiley bei selbst bei maximalem Trackingschutz gut erhalten bleiben.

7 Fazit und Empfehlungen

Die Analyse und die Tests zeigten, dass die untersuchten Websites von Springer Nature und Wiley Third-Party-Tracking mit unterschiedlichen Mitteln betreiben. Wie sie dabei vorgehen und welche Daten zu welchen Zwecken erhoben werden, legen beide in ihren Privacy Statements umfänglich dar. Festzuhalten ist auch, dass sich das Tracking durch einfache Maßnahmen wie die Konfiguration der Cookie-Setzung, restriktive Datenschutz-Einstellungen der Browser und die Installation von Browser-Erweiterungen wie uBlockOrigin oder die Nutzung von speziellen Browsern wie Brave unterbinden lässt. Wie umfangreich der Schutz dabei ist, hängt zunächst vom Entwicklungsstand der Browser bzw. Erweiterungen ab. Auch die Aktualität der Datenbanken, in denen die bekannten Third-Party-Tracker registriert sind, ist ein Faktor. Für den umfänglichsten Schutz ist das Blockieren von Skripten und jeglichen Third-Party-Hosts nötig, was jedoch mit deutlichen Einschränkungen von Funktionalität und Darstellung einhergeht. Doch auch in diesem Fall ist das Tracking der IP-Adresse und weiterer individualisierender Informationen durch die First-Party immer noch möglich und eröffnet andere, am Beispiel von Permutive gezeigte Tracking-Möglichkeiten. Erfolgt der Zugriff mit einem in Hinblick auf den Schutz privater Daten optimierten Browser wie Brave und zusätzlich über einen Bibliotheksproxy wie EZProxy, kann die Nutzung wenigstens insoweit anonymisiert werden, als nicht mehr ein bestimmter Client mit einem identifizierbaren Browser, sondern lediglich ein Zugriff aus dem IP-Bereich einer bestimmten Bibliothek bzw. Hochschule registriert werden kann.

Abgesehen von den technischen Mitteln, die aufgrund der für die Zugriffskontrolle notwendigen Authentifizierung über die IP-Adresse an sich keine vollumfängliche Anonymisierung herstellen können, könnten auch vertragliche Regularien zum Schutz der persönlichen Daten von Forschenden eine Option darstellen. In den aktuellen DEAL-Verträgen ist beispielsweise das Sammeln von Nutzungsdaten unter Einhaltung der Datenschutzgesetzgebung zwecks Bereitstellung von COUNTER-Nutzungsstatistiken explizit geregelt: „Publisher shall collect data on usage of the Content and process these according to the COUNTER Code of Practice […] according to applicable privacy and data protection laws.“ (Springer)[30] Und bei Wiley: „Each Member Institution will have access to its own usage statistics, which are compliant with COUNTER Codes of Practice […] consistent with applicable privacy laws and confidentiality requirements.“[31]

Für die Generierung von Nutzungsstatistiken ist das Einbinden von Third-Party-Hosts allerdings nicht nötig. Anders als im Fall der Wiley Online Library, die das Opt-In der Nutzenden stillschweigend voraussetzt und damit die gesetzlichen Anforderungen missachtet, werden von Springer korrekterweise erst nach der Einwilligung im Privacy-Preference-Center Drittanbieter eingebunden und deren Cookies gesetzt. Das Opt-Out in dieser Form und auch der Verzicht auf Fingerprinting könnten als Standard für den Besuch der Websites vertraglich festgelegt werden, ohne dass sich diese Festlegung negativ auf die Erstellung der von den Einrichtungen erwünschten Nutzungsstatistiken auswirkt. Inwieweit durch den Ausschluss bestimmter Identifizierungsmechanismen angesichts der in hohem Tempo voranschreitenden Weiterentwicklung von Tracking-Technologien auch zukünftig der Schutz der Privatsphäre gewährleistet bleibt, ist fraglich. Schließlich kann auch die Datenschutzgesetzgebung kaum mit der Entwicklung mithalten, wie das hier vorgestellte, offenbar DSGVO-konforme First-Party-Trackingverfahren von Permutive zeigt, das nur verschlüsselte Interessensprofile übermittelt, die den Nutzenden in Echtzeit einer „Kohorte“ mit ähnlichen Profilausprägungen zuweist und passende Werbeinhalte bereitstellt. Werden dabei personenbezogene Daten und auf dem Gerät gespeicherte Informationen übermittelt? Oder sind es vielmehr per Algorithmus erzeugte, digitale Identitäten, die mit einer Person lediglich über das benutzte Gerät in Verbindung gebracht werden können?

Zuletzt sollte auch erwähnt werden, dass alle Beteiligten durchaus von den über das Tracking gewonnenen Daten profitieren könnten, wenn unter Einhaltung des Datenschutzes deren Weiterverarbeitung und Analyse transparent gemacht und auch die Nutzungsdaten selbst offengelegt werden. Informationsinfrastruktureinrichtungen könnten, soweit die datenanalytische Expertise vorhanden ist, eigene, über die COUNTER-Statistiken hinausgehende Erkenntnisse aus den Daten ziehen. Die Weiterverarbeitung durch Dritte wäre damit nicht mehr notwendig, und es wäre sichergestellt, dass rechtskonform und im Sinn der Träger mit den Daten umgegangen wird.

Published Online: 2022-05-07
Published in Print: 2022-05-05

© 2022 Michael Freiberg, publiziert von De Gruyter.

Dieses Werk ist lizensiert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Scroll Up Arrow