Reproducible Information Retrieval Research : From Principled System-Oriented Evaluations Towards User-Oriented Experimentation

The reproducibility of earlier findings is fundamental to the empirical sciences. Even though this circumstance is widely acknowledged, several systematic large-scale reproducibility reviews showed that many earlier findings, e.g., in computer science, psychology, or the biomedical sciences, are not reproducible. Information Retrieval (IR) is rooted in experimentation, and empirical findings mainly drive the research progress. Therefore, the IR community established several initiatives to understand the reproducibility of earlier works better and provided solutions for better research practices to enforce reproducible research. For instance, dedicated reproducibility tracks at IR conferences report on the reproducibility of previous work, while other works introduce solutions to prepare an experimental setup for reuse.
 
This thesis contributes perspectives on how reproducibility can be evaluated at different levels of validity. The first part of the thesis deals with internal validity covering the scope of system-oriented experimentation. We note that there is no standard approach in IR when evaluating the quality of reimplementations as part of a reproducibility attempt. To this end, this work proposes a more principled approach to reproducibility analysis for system-oriented IR experiments. Building upon an extended version of the PRIMAD taxonomy, we outline how a derived metadata schema can be combined with reproducibility measures to determine the degree and quality of reproduction in a principled way.
 
The second part of the thesis focuses on external validity by considering user variability in an IR experiment. The user's influence in an IR experiment is a key component that allows us to conclude how well the system-oriented findings can be reproduced in a different experimental context. As an alternative to experiments with real users, simulations provide a more cost-efficient, reproducible, and controllable solution to account for the variation of user behavior. Our simulation experiments specifically focus on the variation of the query formulation and the click behavior. In this regard, we analyze reproducibility by considering different query variants as alternative system inputs and clicks as other forms of relevance signals to the system outputs. Both user interactions are usually not part of system-oriented IR experiments and simulations allow better conclusions about the external validity.
 
Finally, we provide an outlook of how the validity can be analyzed in real-world user experiments run on a living lab platform. The underlying infrastructure embeds the concept of containerization and allows the integration of technically reproducible IR systems. The corresponding evaluations of online experiments show how the infrastructure adds up to earlier online platforms and exemplify how system-oriented experiments could be accompanied and validated by living lab experiments with real users in the future.

Die Reproduzierbarkeit ist fur die empirische Wissenschaft von grundlegender Be- ¨
deutung und obwohl dies weithin anerkannt ist, haben mehrere Reproduzierbarkeitsstudien gezeigt, dass viele Ergebnisse, z. B. in der Informatik, der Psychologie oder den biomedizinischen Wissenschaften, nicht reproduzierbar sind. Da der Fortschritt im Information Retrieval (IR) hauptsächlich durch empirische Erkenntnisse vorangetrieben wird, wurden mehrere Initiativen ins Leben gerufen, um die Reproduzierbarkeit früherer Arbeiten besser zu verstehen und Lösungen für bessere Forschungspraktiken zur Durchsetzung reproduzierbarer Forschung zu finden. So bieten beispielsweise IR-Konferenzen die Möglichkeit, über die Reproduzierbarkeit früherer Arbeiten zu berichten, während in anderen Arbeiten Lösungen zur Vorbereitung eines Versuchsaufbaus fur die Wiederverwendung vorgestellt werden.
Diese Arbeit leistet einen Beitrag zur Auswertung von Reproduzierbarkeitsstudien auf verschiedenen Ebenen der Validität. Der erste Teil befasst sich mit der
internen Validität, die systemorientierte IR-Experimente abdeckt. Häufig wird kein
Standardansatz verfolgt, wenn Ergebnisse einer Reproduzierbarkeitsstudie evaluiert
werden. Zu diesem Zweck wird in dieser Arbeit ein systematischer Ansatz zur Reproduzierbarkeitsanalyse für systemorientierte IR-Experimente vorgestellt. Aufbauend auf einer Erweiterung der PRIMAD-Taxonomie wird skizziert, wie diese in Form eines Metadatenschemas mit Reproduzierbarkeitsmaßen zur Bestimmung der Reproduktionsqualität verwendet werden kann.
Der zweite Teil der Arbeit befasst sich mit der externen Validität, indem er die
Nutzervariabilität in einem Experiment betrachtet. Der Benutzereinfluss in einem
IR-Experiment ist eine Schlusselkomponente, die uns Rückschlüsse darauf erlaubt, wie gut die Ergebnisse in einem geänderten experimentellen Kontext reproduziert werden können. Als Alternative zu Experimenten mit realen Nutzern bieten Simulationen eine kostengünstigere, reproduzierbare und kontrollierbare Lösung, um die Variation des Nutzerverhaltens zu berücksichtigen. Unsere Simulationen konzentrieren sich insbesondere auf die Variation der Anfrageformulierung und des Klickverhaltens. In diesem Zusammenhang analysieren wir die Reproduzierbarkeit, indem wir verschiedene Anfragevarianten als alternative Systemeingaben und Klicks als andere Formen von Relevanzsignalen fur die Systemausgaben betrachten.
Zuletzt geben wir einen Ausblick darauf, wie die Validität in realen Benutzerexperimenten analysiert werden kann. Die zugrundeliegende Living-Lab-Infrastruktur beruht auf dem Konzept der Containerisierung und erlaubt die Integration technisch reproduzierbarer IR-Systeme. Die dazugehörigen Auswertungen von OnlineExperimenten veranschaulichen, wie die Infrastruktur eine Möglichkeit bietet, systemorientierte Experimente in Zukunft durch Living-Lab-Experimente mit realen Nutzern validieren zu können.

Cite

Citation style:
Could not load citation form.

Rights

Use and reproduction:
All rights reserved