Computer-assisted understanding of stance in social media: formalizations, data creation, and prediction models

Wojatzki, Michael Maximilian

doi:10.17185/duepublico/48043

Dissertation Fr., 01. Feb.. 2019 CC BY-NC-SA 4.0

Veröffentlicht

Computer-assisted understanding of stance in social media : formalizations, data creation, and prediction models

Wojatzki, Michael Maximilian

Englisch
Deutsch

Stance can be defined as positively or negatively evaluating persons, things, or ideas (Du Bois, 2007). Understanding the stance that people express through social media has several applications: It allows governments, companies, or other information seekers to gain insights into how people evaluate their ideas or products. Being aware of the stance of others also enables social media users to engage in discussions more efficiently, which may ultimately lead to better collective decisions. Since the volume of social media posts is too large to be analyzed manually, computeraided methods for understanding stance are necessary. In this thesis, we study three major aspects of such computer-aided methods: (i) abstract formalizations of stance which we can quantify across multiple social media posts, (ii) the creation of suitable datasets that correspond to a certain formalization, and (iii) stance detection systems that can automatically assign stance labels to social media posts. We examine four different formalizations that differ in how specific the insights and supported use-cases are: Stance on Single Targets defines stance as a tuple consisting of a single target (e.g. Atheism) and a polarity (e.g. being in favor of the target), Stance on Multiple Targets models a polarity expressed towards an overall target and several logically linked targets, and Stance on Nuanced Targets is defined as a stance towards all texts in a given dataset. Moreover, we study Hateful Stance, which models whether a post expresses hatefulness towards a single target (e.g. women or refugees). Machine learning-based systems require training data that is annotated with stance labels. Since annotated data is not readily available for every formalization, we create our own datasets. On these datasets, we perform quantitative analyses, which provide insights into how reliable the data is, and into how social media users express stance. Our analysis shows that the reliability of datasets is affected by subjective interpretations and by the frequency with which targets occur. Additionally, we show that the perception of hatefulness correlates with the personal stance of the annotators. We conclude that stance annotations are, to a certain extent, subjective and that future attempts on data creation should account for this subjectivity. We present a novel process for creating datasets that contain subjective stances towards nuanced assertions and which provide comprehensive insights into debates on controversial issues. To investigate the state-of-the-art of stance detection methods, we organized and participated in relevant shared tasks, and conducted experiments on our own datasets. Across all datasets, we find that comparatively simple methods yield a competitive performance. Furthermore, we find that neuronal approaches are competitive, but not clearly superior to more traditional approaches on text classification. We show that approaches based on judgment similarity – the degree to which texts are judged similarly by a large number of people – outperform reference approaches by a large margin. We conclude that judgment similarity is a promising direction to achieve improvements beyond the state-of-the-art in automatic stance detection and related tasks such as sentiment analysis or argument mining.

Stance (dt: Haltung, Position oder Standpunkt) bezeichnet die positive oder negative Evaluation von Personen, Dingen oder Ideen (Du Bois, 2007). Versteht man den Stance, den Menschen in den sozialen Medien zum Ausdruck bringen, eröffnen sich vielfältige Anwendungsmöglichkeiten: Auf der einen Seiten können Regierungen, Unternehmen oder andere Informationssuchende Einblicke darüber gewinnen, wie Menschen ihre Entscheidungen, Ideen oder Produkte bewerten. Auf der anderen Seite können Social Media Nutzer, denen der Stance anderer Nutzer bekannt ist, effizientere Diskussionen führen und letztendlich bessere kollektive Entscheidungen treffen. Da die Anzahl der in sozialen Medien getätigter Beiträge zu hoch für eine manuelle Analyse ist, sind computergestützte Methoden zum Verständnis von Stance notwen- dig. In dieser Arbeit untersuchen wir drei Hauptaspekte solcher computergestützten Methoden: (i) abstrakte Stance Formalisierungen, die sich über mehrere Social Media Beiträge hinweg quantifizieren lassen, (ii) die Erstellung geeigneter Datensätze, die einer bestimmten Formalisierung entsprechen, und (iii) automatische Systeme zur Erkennung von Stance, die Social Media Beiträgen ein Stance Label zuordnen können. Wir untersuchen vier verschiedene Formalisierungen, die sich darin unterscheiden, wie spezifisch die Erkenntnisse sind, welche sie bei der Analyse von Social Media Debatten liefern: Stance gegenüber einzelnen Targets definiert Stance als ein Tupel, welches aus einem einzigen Target (z.B. Atheismus) und einer Polarität (z.B. für oder gegen das Target sein) besteht. Stance gegenüber mehreren Targets modelliert eine Polarität, die gegenüber einem übergeordneten Target und mehreren logisch verknüpften Targets aus- gedrückt wird. Stance gegenüber nuancierten Targets, modelliert Stance als eine Polarität gegenüber allen Texten in einem bestimmten Datensatz. Darüber hinaus untersuchen wir hasserfüllten Stance als eine Formalisierung, die modelliert, ob ein Text Hass gegenüber einem einzelnen Target (z.B. Frauen oder Flüchtlingen) ausdrückt. Systeme, die auf Methoden des maschinellen Lernens basieren, benötigen eine ausreichende Menge von mit Labeln versehenen Trainingsdaten. Da solche Daten nicht für jede Formalisierung verfügbar sind, wurden im Rahmen dieser Arbeit eigene Datensätze erstellt. Auf der Basis dieser Datensätze führen wir quantitative Analysen durch, welche Aufschluss darüber geben, wie zuverlässig die Annotation der Daten ist und in welcher Weise Social Media-Nutzer Stance kommunizieren. Unsere Analyse zeigt, dass die Zuverlässigkeit unserer Daten durch subjektive Interpretationen der Annotatoren und durch die Häufigkeit, mit der bestimmte Targets auftreten, beeinflusst wird. Unsere Studien zeigen weiterhin, dass die Wahrnehmung von Hass mit dem persönlichen Stance der Annotatoren korreliert, woraus wir folgern, dass Stance Annotationen bis zu einem gewissen Grad subjektiv sind und dass diese Subjektivität bei der Datenerstellung zukünftig berücksichtigt werden sollte. Darüber hinaus schlagen wir einen neuartigen Prozess für die Erstellung von Datensätzen vor, die subjektive Annotationen beinhalten, die der Forma- lisierung Stance gegenüber nuancierten Targets entsprechen und damit umfassende Einblicke in die zugrundeliegende Social Media Debatte liefert. Um den Stand der Technik der automatischen Stance Erkennung zu untersuchen, haben wir relevante shared tasks organisiert und an ihnen teilgenommen, sowie Experimente an eigenen Datensätzen durchgeführt. Unsere Untersuchungen zeigen über alle Experimente und Datensätze hinweg, dass vergleichsweise einfache Methoden eine äußerst wettbewerbsfähige Leistung erbringen. Des Weiteren zeigen unsere Betrachtungen, dass neuronale Ansätze zwar wettbewerbsfähig, aber nicht deutlich besser als herkömmliche Ansätze zur Textklassifizierung sind. Wir zeigen, dass Ansätze, die auf der Beurteilungsähnlichkeit basieren – definiert als das Ausmaß mit dem Texte von einer großen Anzahl von Menschen ähnlich beurteilt werden – die Leistung von Referenzansätzen deutlich übertreffen. Daraus schließen wir, dass diese Beurteilungsähnlichkeit eine vielversprechende Richtung ist, um weitere Verbesserungen in den Bereichen automatischen Erkennung von Stance und verwandten Aufgaben wie Sentimentanalyse oder Argument Mining zu erzielen.

Vorschau

Einordnung

Akademische Betreuung:

Prof. Dr. Zesch, Torsten

Datum der Einreichung:

10.12.2018

Datum der Promotion:

21.01.2019

Datum der Veröffentlichung:

01.02.2019

URN:

urn:nbn:de:hbz:464-20190201-140926-6

DOI:

10.17185/duepublico/48043

Sprache:

Englisch

Ressourcentyp:

Text

Kollektion:

E-Dissertationen

Dewey Dezimal-Klassifikation:

004 Datenverarbeitung; Informatik

Dewey Dezimal-Klassifikation:

302 Soziale Interaktion

Sachgruppen der Deutschen Nationalbibliographie:

004 Informatik

Sachgruppen der Deutschen Nationalbibliographie:

300 Sozialwissenschaften, Soziologie, Anthropologie

Einrichtung:

Fakultät für Ingenieurwissenschaften, Informatik und Angewandte Kognitionswissenschaft

auf die Merkliste

Zitieren

Zitierform:

10.17185/duepublico/48043
Zitier-Link kopieren

Rechte

Nutzung und Vervielfältigung:

Dieses Werk kann unter einer
CC BY-NC-SA 4.0 Logo

Creative Commons Namensnennung - Nicht-kommerziell - Weitergabe unter gleichen Bedingungen 4.0 Lizenz (CC BY-NC-SA 4.0)
genutzt werden.

Export

BibTeX, Endnote, MODS, MARCXML, RIS, ISI, PICA, DC, CSV

DuEPublico 2

Duisburg-Essen Publications online