Topic Modeling met Tijdschrift voor Geschiedenis

24 April 2018

Tutorial voor Digitale Methoden en Historische Bronnenkritiek

Link naar de slides

Deze opdracht is een introductie voor topic modeling voor historisch digitaal bronmateriaal. Topic modeling is een manier om inzicht te krijgen in de thematische structuur van grote digitale bronnen. Het wordt veelal gebruikt om serieele bronnen te ontsluiten en te analyseren, waarbij de onderwerpen automatisch afgeleid worden uit het materiaal, en een beeld geven van de ontwikkeling van onderwerpen in die bronnen door de tijd.

Voor de opdracht wordt het gedigitaliseerde corpus van het Tijdschrift voor Geschiedenis (TvG) gebruikt. De jaargangen 1886-2008 zijn digitaal beschikbaar gemaakt via de website van Huygens ING. De data voor de opdracht bestaat uit platte tekstbestanden van gedigitaliseerde versie, in combinatie met metadata die beschrijft uit welke jaargang en welk artikel de tekstbestanden komen. Topic modeling maakt het mogelijk om veranderingen in de besproken onderwerpen in het tijdschrift zichtbaar te maken.

Werk voor de opdracht in kleine groepen van twee of drie personen. Met elkaar kun je makkelijker reflecteren op wat je ziet en doet en wellicht ook makkelijker de vragen beantwoorden.

Installeren

Voor het uitvoeren van de analyse, worden de stappen in de TMT Quickstart guide gevolgd, maar gebruikmakend van de TvG data.

De topics die je ziet bevatten veel algemene functiewoorden. Een eerste stap om betere topics te verkrijgen is die functiewoorden verwijderen.

Stopwoorden

Stopwoorden zijn woorden die veel voorkomen en vooral syntactische functies hebben in de tekst, maar weinig over de inhoud zeggen. In allerlei vormen van inhoudelijke tekstanalyse worden stopwoorden vaak verwijderd. Zo ook in topic modelling

Gebruik eerst de standaard stopwoorden lijst stopwoorden-iso-nl.txt die in de TvG directory staat (afkomstig van de Stopwords Dutch repository op GitHub). Kies in de TMT voor Optional settings en in het volgende menu voor Stopword file, en selecteer dan het stopwoordenbestand. Draai opnieuw de topic modeling analyse.

Waarschijnlijk levert dit al betere resultaten op, maar er zijn nog steeds allerlei stopwoorden te vinden in de topics. Het zijn met name oudere spellingsvarianten van moderne stopwoorden. Dit is een typisch probleem van werken met historisch materiaal: digital tools ontwikkeld voor moderne talen werken niet goed voor ouder materiaal zonder aanpassing.

Probeer nu een alternatieve stopwoordenlijst die ook in de TvG directory staat: tvg_stopwoorden.txt. Deze bevat een veel langere lijst met zowel moderne als historische stopwoorden en veel andere, korte woorden die weinig inhoudelijk zijn. Als je opnieuw het topic modeling proces draait zul je waarschijnlijk weinig stopwoorden meer tegenkomen.

Vragen:

Hoeveelheid tekst, documentlengte en het aantal topics

In grotere teksten komen meer verschillende woorden voor dus is er meer verbinding tussen woorden. Maar langere teksten hebben ook vaak meer variatie in onderwerpen. Als je langere stukken tekst gebruikt om te modelleren, raken onderwerpen meer vermengd met elkaar in een enkel document. Denk bijvoorbeeld aan het verschil in de variatie aan onderwerpen op een enkele pagina van het Tijdschrift voor Geschiedenis met een volledige jaargang. Er is gekozen om elke pagina als apart document te gebruiken, zodat elke document redelijk gefocust is.

Een enkele jaargang heeft minder onderwerpsvariatie dan een reeks jaargangen, dus wellicht ook minder topics om te modelleren. Met meer jaargangen is het zinniger om het aantal topics dat je wilt vinden te verhogen.

Vragen:

Bekijk de output die de TMT genereert in de output directory die je hebt opgegeven. In de output_html directory kun je het all_topics.html bestand vinden. Open deze in je browser en kies het meest coherente of interessante topic. Bekijk de top-ranked documenten.

Volg nu de stappen in de TMT Quickstart guide vanaf Build a pivot table using topics-metadata.csv, waarmee je in Excel een grafiek kunt maken om de ontwikkeling te zien in de aandacht voor verschillende onderwerpen in het TvG.

Interpreteren van topics

Kijk naar de volgende set van topics die de TMT heeft gevonden a.d.h.v. een analyse van alle jaargangen van TvG: 100 topics in 122 jaargangen van TvG.