Skip to content
BY 4.0 license Open Access Published by De Gruyter Oldenbourg 2022

Potenziale und Grenzen der Topic- Modellierung mit Latent Dirichlet Allocation für die Digital History

From the book Digital History

  • Melanie Althage

Abstract

Topic Modeling is a widespread method in Digital Humanities and Digital History in order to examine the thematic structure of extensive text collections, such as to trace themes and motifs in novels or publication trends in (scientific) journals. Although it represents a large family of algorithms, Latent Dirichlet Allocation (LDA), first introduced in 2003, is the de facto standard for these purposes. However, the original goals behind the development of LDA differ significantly from today’s application scenarios in the humanities and historical sciences. The article therefore provides an overview of the development context and the assumptions underlying the LDA procedure and, on this basis, discusses the potentials and limitations relevant for historical research. Limitations are inherent in the algorithm, especially with regard to the temporality of historical data. Accordingly, the article pleads for a stronger reception of further developments in the field of Topic Modeling beyond LDA

Zusammenfassung

Topic Modeling ist in den Digital Humanities und der Digital History eine verbreitete Methode zur Untersuchung der inhaltlich-thematischen Struktur umfangreicher Textkollektionen, etwa um Themen und Motive in Romanen oder Publikationstrends in (Fach-)Zeitschriften nachzuvollziehen. Obgleich es sich um eine große Familie von Algorithmen handelt, stellt die 2003 erstmals vorgestellte Latent Dirichlet Allocation (LDA) hierfür den Quasi- Standard dar. Allerdings weichen die ursprünglichen Ziele, die hinter der Entwicklung von LDA standen, von den heutigen Anwendungsszenarien deutlich ab. Der Beitrag zeichnet daher überblickshaft den Entwicklungskontext und die dem Verfahren zugrundeliegenden Annahmen nach und erörtert auf dieser Basis die für geschichtswissenschaftliche Fragestellungen relevanten Potenziale und Grenzen. Insbesondere hinsichtlich der Temporalität historischer Daten sind dem Algorithmus Limitierungen inhärent. Der Beitrag plädiert entsprechend dafür, die Weiterentwicklungen im Bereich Topic Modeling über LDA hinaus stärker zu rezipieren

© 2022 Walter de Gruyter GmbH, Berlin/Boston
Downloaded on 9.6.2023 from https://www.degruyter.com/document/doi/10.1515/9783110757101-014/html
Scroll to top button