Letztes Jahr wurde ein Paper in “Proceedings of the National Academy of Sciences of the United States of America” (PNAS) veröffentlicht, welches die Rhetorik der ersten Jahre der französischen Revolution untersucht. Das interessante daran aus Data Science Sicht ist die Nutzung von ML-Algorithmen, um eine große Menge an Reden (40.000) zu analysieren. Soweit ich weiß, ist das eine der ersten Forschungen, welche Maschinelles Lernen verwendet, um historische Daten dieser Größenordnung auszuwerten. Besonders toll finde ich, dass die NLP-Methoden (NLP = Natural Language Processing) eine praktische Anwendung finden.

Ich bin gespannt, ob durch die fortschreitende Digitalisierung und Veröffentlichung historischer Daten die quantitativen Analysen in den Geisteswissenschaften zunehmen. Wie jeder, der mit Datensätzen zu tun hat, sind aber ebenso wichtig wie neue Methoden die richtigen Fragestellen. Daher ist die Zusammenarbeit zwischen Fachexperten (Domain Owner) und Data Scientisten so wertvoll.

Vorgehen

Nach der typischen Aufbereitung, sprich Stop-Word-Removal, wurden die Reden mittels Latent Dirichlet Allocation (LDA) in 100 “Themen” einsortiert. Das passiert anhand von gemeinsam auftauchenden Wortpaaren. Die Themen wurden dann im zeitlichen Verlauf analysiert und dabei Kennzahlen für Novelty (Abweichung von vorherigen Reden), Transience (Abweichung von folgenden Reden) und Resonance (die Differenz der beiden) quantifiziert.

Links

Hier geht es zu einem Überblicks-Artikel über das Paper des Santa Fe Institute. Das Paper Individuals, institutions, and innovation in the debates of the French Revolution selbst ist bei PNAS zu finden.