Annotating and Analyzing Semantic Relations between Texts

In this thesis, we investigate machine computable and at the same time human-understandable representation dimensions of text that can subsequently be used to filter and display information. While texts can be represented individually e.g. using numeric dimensions such as sentence length or grammatical components, we focus on representation dimensions that express relations between pairs of text. Most of the herein researched relation dimensions are binary, meaning that the relations of interest either do or do not exist between a text pair.
Some dimensions are inherently defined as text-to-text relations e.g. textual entailment, paraphrases, contradiction, or semantic similarity. That is, there can be no paraphrase within one text, but it is a relation between a text pair.
While there has been much research on these dimensions individually, one of our contributions is the empirical research on the links between them. On the one hand, this provides us with a better understanding of each individual dimension. For instance, we find that although entailment, as well as paraphrases, exclude contradictions, text pairs not containing entailment are not necessarily contradictions, which has, however, been considered a given many previous works. On the other hand, our analysis has the potential of improving transfer learning by using corpora on one of the dimensions to automatize another. We find, i.a. that the most prominent assumed link between dimensions—bi-directional entailment being equivalent to paraphrases—does not always hold. However, in most cases it is true, meaning that transfer learning between these dimensions is possible.
As for dimensions that can also exist for individual pieces of text, we believe that some of them can also be better researched as relations between texts. By rating the sentiment of text in comparison to other texts instead of using a scale for each individual text, this has already been shown on the example of sentiment. Another contribution of this thesis is considering not only sentiment, but also specificity, as a relation. We find that specificity, just like sentiment, can be reliably annotated as a relation. Moreover, we find further potential parallels to sentiment regarding the operationalization of specificity—it can be more reliable annotated with an aspect, similar to the task of aspect-based sentiment.
A further contribution of this thesis is the research on the link between dimensions that are inherently a relation and the under-researched phenomenon of specificity. For instance, we hypothesize that the entailed text of an entailment pair has a lower specificity level than the entailing text, as the entailed text should not contain any additional information than already described in the entailing text. The analysis of links between the inherent relation dimensions and specificity helps us to deepen our understanding of this under-researched phenomenon and gives an incentive on how to improve its automation.
Finally, we present two potential applications using each dimension, namely heterogeneous multi-document summarization, and a more specific kind of summarization—user specific hotel review filtering.

In dieser Arbeit untersuchen wir maschinenberechenbare und gleichzeitig vom Menschen verständliche Darstellungsdimensionen von Text, die anschließend zum Filtern und Anzeigen von Informationen verwendet werden können. Während Texte einzeln dargestellt werden können, z.B. unter Verwendung numerischer Dimensionen wie Satzlänge oder grammatikalischer Komponenten konzentrieren wir uns auf Darstellungsdimensionen, die Beziehungen zwischen Textpaaren ausdrücken. Die meisten der hier untersuchten Beziehungsdimensionen sind binär d.h., dass die Beziehungen zwischen einem Textpaar existieren oder nicht. 
Einige Dimensionen sind per Definition Text-zu-Text-Beziehungen, z.B. textuelles Entailment, Paraphrasen, Widerspruch oder semantische Ähnlichkeit. So kann es keine Paraphrase innerhalb eines Textes geben, da es eine Beziehung zwischen einem Textpaar ist. Während diese Dimensionen einzeln jeweils viel erforscht wurden, ist einer unserer Beiträge die empirische Untersuchung der Verbindungen zwischen ihnen. Dies gibt uns einerseits ein besseres Verständnis für jede einzelne Dimension, so stellen wir zum Beispiel fest, dass sowohl Entailment als auch ParaphrasenWidersprüche ausschließen, Textpaare, die Entailment nicht enthalten, jedoch nicht unbedingt Widersprüche sind, was in vielen vorherigen Arbeiten jedoch als gegeben betrachtet wurde. Andererseits hat unsere Analyse das Potenzial, Transfer Learning zu verbessern, indem Korpora in einer der Dimensionen verwendet werden, um eine andere zu automatisieren. Wir finden, u.a. dass die prominenteste angenommene Verbindung zwischen Dimensionen—beidseitiges Entailment entspricht Paraphrasen—nicht immer gilt. In den meisten Fällen ist dies jedoch der Fall, was bedeutet, dass ein Transfer Learning zwischen diesen Dimensionen möglich ist. 
Weiterhin zeigen wir, dass einige Dimensionen, die traditionell als Einzeldimensionen existieren, als Beziehungen besser erforscht werden können. Durch die Bewertung von Sentiment im Vergleich zwischen Texten anstelle einer Skala für jeinzelne Texte wurde dies bereits am Beispiel von Sentiment gezeigt. Wir finden, dass Spezifität genau wie Sentiment zuverlässig als Beziehung annotiert werden kann. Darüber hinaus finden wir weitere Parallelen zu Sentiment in Bezug auf die Operationalisierung der Spezifität - sie kann zuverlässiger mit eine Aspekt annotiert werden, ähnlich der Aufgabe der aspektbasierten Stimmungsanalyse. 
Ein weiterer Beitrag dieser Arbeit ist die Erforschung des Zusammenhangs zwischen Dimensionen, die inhärent als Beziehung definiert sind, und dem bisher vernachlässigten Phänomen der Spezifität. Dies wird ermöglicht, indem die Spezifität als Beziehung betrachtet wird, wie im vorherigen Absatz beschrieben. Zum Beispiel nehmen wir an, dass der implizierte Text eines Entailment-Paares eine niedrigere Spezifität aufweist als der implizierende Text, da der implizierte Text keine zusätzlichen Informationen enthalten sollte, als bereits im implizierenden Text beschrieben. Die Analyse der Zusammenhänge zwischen den inhärenten Beziehungsdimensionen und der Spezifität hilft uns, unser Verständnis dieses unterforschten Phänomens zu vertiefen, und gibt einen Anreiz zur Verbesserung seiner Automatisierung. 
Schließlich stellen wir zwei mögliche Anwendungen für jede Dimension vor, nämlich die heterogene Zusammenfassung mehrerer Dokumente und eine spezifischere Art der Zusammenfassung - das benutzerspezifische Filterverfahren von Hotelbewertungen.

Vorschau

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte