Computational methods to detect HLA-associated mutations
Viruses replicate intracellularly, which means that they are well hidden from the humoral arm of the immune system. However, evolution brought up mechanisms to combat viral infections: All cells with active protein biosynthesis continuously present peptides on the cell surface via Human Leukocyte Antigen (HLA) molecules. Cytotoxic T cells are selected to not bind to peptides originating from the human proteome, but --facilitated by the vast T cell receptor repertoire-- may bind to viral epitopes and induce killing of the virus infected cell.
In this way, cytotoxic T cells are sharp weapons to combat viral infections and exert strong selection pressure towards virus variants that escape that immune recognition pathway.
HLA escape may occur through many mechanisms, for example through point mutations that reduce binding of the epitope to HLA molecules.
The identification of these HLA-associated mutations (HAMs) is not only important for understanding viral evolution, but also impacts the development of broadly effective anti-viral treatments and vaccines against variable viruses. Unfortunately, experimental methods to detect HAMs are prohibitively expensive and too time-consuming for large-scale use.
A promising alternative are methods that detect HAMs through the statistical analysis of viral sequence data annotated with host HLA information. Existing methods fail to take confounding effects like phylogeny and important prior knowledge like epitope prediction into account. This necessitates an improved model, which accounts for confounding effects and combines as much information as possible into a single coherent statistical model.
I introduce this thesis with a brief description of the immunological concepts that are important to understand the challenges of identifying HLA-associated mutations through statistical analysis (chapter 1) and an introduction to Bayesian modeling (chapter 2), which provides the statistical basis for the main work. Chapter 3 provides the main results of this thesis, which are summarized in two publications. Chapter 4 concludes with a discussion of the contributed articles.
In the first publication (section 3.1), I present HAMdetector, a regression model to identify HLA-associated mutations in HLA-annotated viral sequence data. The main feature of this model is the Bayesian framework, which allows including prior information in a principled way and takes sources of uncertainty into account. The model includes knowledge about the distributional properties of HLA-associated mutations and the fact that HAMs preferentially lie within the boundary of epitopes, which can be predicted using epitope prediction software. On a large collection of HIV, HBV and HDV datasets, HAMdetector identified many potential HAMs that are currently unknown, which implies that a significant fraction of interactions between viruses and T cell based immunity is yet to be discovered, an exciting discovery for immunology and virology.
In the second publication, I transfer the general statistical principle of including as much information as possible in a single coherent model to the field of cancer research:
Merkel cell carcinoma is an aggressive type of skin cancer, which can be treated using novel antibody-based therapies. However, these therapies are sometimes not effective, and the risk factors leading to therapeutic failure are not well understood. Using a relatively small dataset of 114 patients characterized by therapy outcome on an ordinal scale (progressive disease, stagnant disease, partial response and complete response), I could show in this collaborative project that out of 17 different patient- and tumor characteristics, immunosuppression and spread of the tumor to multiple organs appear to be linked most strongly to treatment non-response.
The main feature of this model is that it takes the ordinal nature of the response into account, an important piece of information that is often discarded in statistical models. This work puts a strong emphasis on model testing, highlighting benefits of the Bayesian workflow to learn as much from the available data as possible and accurately account for model uncertainty.
Viren vermehren sich intrazellulär und sind vor dem humoralen Arm des Immunsystems deshalb gut verborgen. Die Evolution hat jedoch Mechanismen zur Bekämpfung von Virusinfektionen hervorgebracht: Alle Zellen mit aktiver Proteinbiosynthese präsentieren über Human Leukocyte Antigen (HLA) Moleküle ständig Peptide auf der Zelloberfläche. Zytotoxische T-Zellen sind so selektiert, dass sie nicht an Peptide aus dem menschlichen Proteom binden, sondern --unterstützt durch das große Repertoire an T-Zell-Rezeptoren-- an virale Epitope binden können und die Abtötung der virusinfizierten Zelle induzieren.
Auf diese Weise sind zytotoxische T-Zellen scharfe Waffen zur Bekämpfung von Virusinfektionen und üben einen starken Selektionsdruck auf Virusvarianten aus, die diesem Immunmechanismus entgehen.
Ein solcher HLA-Escape kann durch viele verschiedene Mechanismen erfolgen, zum Beispiel durch Punktmutationen, die die Bindung des Epitops an HLA-Moleküle verringern.
Die Identifizierung dieser HLA-assoziierten Mutationen (HAMs) ist nicht nur wichtig für das Verständnis viraler Evolution, sondern hat auch Auswirkungen auf die Entwicklung von wirksamen antiviralen Behandlungen und Impfstoffen gegen variable Viren. Leider sind experimentelle Methoden zum Nachweis von HAMs unerschwinglich teuer und zu zeitaufwändig für einen breiten Einsatz.
Eine vielversprechende Alternative sind Methoden, die HAMs durch die statistische Analyse von mit Wirts-HLA-Informationen annotierten viralen Sequenzdaten aufspüren. Vorhandene Methoden berücksichtigen Effekte wie Phylogenie und wichtiges Vorwissen wie Epitopvorhersagen nicht. Dies macht ein besseres Modell erforderlich, das Störvariablen berücksichtigt und so viele Informationen wie möglich in einem kohärenten statistischen Modell zusammenfasst.
Ich leite diese Arbeit mit einer kurzen Beschreibung der immunologischen Konzepte ein, die wichtig sind, um die Herausforderungen bei der Identifizierung von HLA-assoziierten Mutationen durch statistische Analysen zu verstehen (Kapitel 1), sowie eine kurze Einführung in die Bayes'sche Modellierung, die die statistische Grundlage für die Hauptarbeit bildet. Kapitel 3 enthält die Hauptergebnisse dieser Arbeit, die in zwei Veröffentlichungen zusammengefasst sind. Kapitel 4 umfasst eine Diskussion dieser Ergebnisse.
In der ersten Veröffentlichung (Abschnitt 3.1) stelle ich HAMdetector vor, ein Regressionsmodell zur Identifizierung von HLA-assoziierten Mutationen in HLA-annotierten viralen Sequenzdaten. Das Hauptmerkmal dieses Modells ist das Bayes'sche Framework, das es erlaubt, Vorwissen direkt in das Modell einzubeziehen und Quellen von Unsicherheit zu berücksichtigen. Das Modell nutzt Informationen über die Verteilungseigenschaften von HLA-assoziierten Mutationen und die Tatsache, dass HAMs bevorzugt innerhalb von Epitopen liegen, welche mit Hilfe von Epitopvorhersagesoftware vorhergesagt werden können. Anhand einer großen Sammlung von HIV-, HBV- und HDV-Datensätzen identifiziert HAMdetector viele derzeit noch unbekannte HAMs, was darauf hindeutet, dass ein erheblicher Teil der Wechselwirkungen zwischen Viren und der T-Zell-basierten Immunität noch nicht entdeckt wurde - eine spannende Entdeckung für die Immunologie und Virologie.
In der zweiten Veröffentlichung übertrage ich das allgemeine statistische Prinzip, so viele Informationen wie möglich in ein kohärentes Modell einzubeziehen, auf den Bereich der Krebsforschung:
Das Merkelzellkarzinom ist eine aggressive Form von Hautkrebs, die mit neuartigen antikörperbasierten Therapien behandelt werden kann. Diese Therapien sind jedoch nicht immer wirksam, und die Risikofaktoren, die zu einem Therapieversagen führen, sind nicht gut erforscht. Anhand eines relativ kleinen Datensatzes von 114 Patienten, bei denen der Therapieausgang auf einer ordinalen Skala erfasst wird (fortschreitende Erkrankung, stagnierende Erkrankung, teilweises Ansprechen und vollständiges Ansprechen), konnte ich in diesem Kollaborationsprojekt zeigen, dass von 17 verschiedenen Patienten- und Tumormerkmalen die Immunsuppression und die Ausbreitung des Tumors auf mehrere Organe am stärksten mit dem Nichtansprechen auf die Behandlung zusammenhängen.
Das Hauptmerkmal dieses Modells besteht darin, dass es die ordinale Skala der Beobachtungen berücksichtigt, eine wichtige Information, die in statistischen Modellen oft unberücksichtigt bleibt. Diese Arbeit legt einen starken Schwerpunkt auf das Testen von Modellen und verdeutlicht die Vorteile des Bayes'schen Workflows, der es erlaubt so viel wie möglich aus den verfügbaren Daten zu lernen und Modellunsicherheit zu berücksichtigen.