Viren vermehren sich intrazellulär und sind vor dem humoralen Arm des Immunsystems deshalb gut verborgen. Die Evolution hat jedoch Mechanismen zur Bekämpfung von Virusinfektionen hervorgebracht: Alle Zellen mit aktiver Proteinbiosynthese präsentieren über Human Leukocyte Antigen (HLA) Moleküle ständig Peptide auf der Zelloberfläche. Zytotoxische T-Zellen sind so selektiert, dass sie nicht an Peptide aus dem menschlichen Proteom binden, sondern --unterstützt durch das große Repertoire an T-Zell-Rezeptoren-- an virale Epitope binden können und die Abtötung der virusinfizierten Zelle induzieren.
Auf diese Weise sind zytotoxische T-Zellen scharfe Waffen zur Bekämpfung von Virusinfektionen und üben einen starken Selektionsdruck auf Virusvarianten aus, die diesem Immunmechanismus entgehen.
Ein solcher HLA-Escape kann durch viele verschiedene Mechanismen erfolgen, zum Beispiel durch Punktmutationen, die die Bindung des Epitops an HLA-Moleküle verringern.
Die Identifizierung dieser HLA-assoziierten Mutationen (HAMs) ist nicht nur wichtig für das Verständnis viraler Evolution, sondern hat auch Auswirkungen auf die Entwicklung von wirksamen antiviralen Behandlungen und Impfstoffen gegen variable Viren. Leider sind experimentelle Methoden zum Nachweis von HAMs unerschwinglich teuer und zu zeitaufwändig für einen breiten Einsatz.
Eine vielversprechende Alternative sind Methoden, die HAMs durch die statistische Analyse von mit Wirts-HLA-Informationen annotierten viralen Sequenzdaten aufspüren. Vorhandene Methoden berücksichtigen Effekte wie Phylogenie und wichtiges Vorwissen wie Epitopvorhersagen nicht. Dies macht ein besseres Modell erforderlich, das Störvariablen berücksichtigt und so viele Informationen wie möglich in einem kohärenten statistischen Modell zusammenfasst.
Ich leite diese Arbeit mit einer kurzen Beschreibung der immunologischen Konzepte ein, die wichtig sind, um die Herausforderungen bei der Identifizierung von HLA-assoziierten Mutationen durch statistische Analysen zu verstehen (Kapitel 1), sowie eine kurze Einführung in die Bayes'sche Modellierung, die die statistische Grundlage für die Hauptarbeit bildet. Kapitel 3 enthält die Hauptergebnisse dieser Arbeit, die in zwei Veröffentlichungen zusammengefasst sind. Kapitel 4 umfasst eine Diskussion dieser Ergebnisse.
In der ersten Veröffentlichung (Abschnitt 3.1) stelle ich HAMdetector vor, ein Regressionsmodell zur Identifizierung von HLA-assoziierten Mutationen in HLA-annotierten viralen Sequenzdaten. Das Hauptmerkmal dieses Modells ist das Bayes'sche Framework, das es erlaubt, Vorwissen direkt in das Modell einzubeziehen und Quellen von Unsicherheit zu berücksichtigen. Das Modell nutzt Informationen über die Verteilungseigenschaften von HLA-assoziierten Mutationen und die Tatsache, dass HAMs bevorzugt innerhalb von Epitopen liegen, welche mit Hilfe von Epitopvorhersagesoftware vorhergesagt werden können. Anhand einer großen Sammlung von HIV-, HBV- und HDV-Datensätzen identifiziert HAMdetector viele derzeit noch unbekannte HAMs, was darauf hindeutet, dass ein erheblicher Teil der Wechselwirkungen zwischen Viren und der T-Zell-basierten Immunität noch nicht entdeckt wurde - eine spannende Entdeckung für die Immunologie und Virologie.
In der zweiten Veröffentlichung übertrage ich das allgemeine statistische Prinzip, so viele Informationen wie möglich in ein kohärentes Modell einzubeziehen, auf den Bereich der Krebsforschung:
Das Merkelzellkarzinom ist eine aggressive Form von Hautkrebs, die mit neuartigen antikörperbasierten Therapien behandelt werden kann. Diese Therapien sind jedoch nicht immer wirksam, und die Risikofaktoren, die zu einem Therapieversagen führen, sind nicht gut erforscht. Anhand eines relativ kleinen Datensatzes von 114 Patienten, bei denen der Therapieausgang auf einer ordinalen Skala erfasst wird (fortschreitende Erkrankung, stagnierende Erkrankung, teilweises Ansprechen und vollständiges Ansprechen), konnte ich in diesem Kollaborationsprojekt zeigen, dass von 17 verschiedenen Patienten- und Tumormerkmalen die Immunsuppression und die Ausbreitung des Tumors auf mehrere Organe am stärksten mit dem Nichtansprechen auf die Behandlung zusammenhängen.
Das Hauptmerkmal dieses Modells besteht darin, dass es die ordinale Skala der Beobachtungen berücksichtigt, eine wichtige Information, die in statistischen Modellen oft unberücksichtigt bleibt. Diese Arbeit legt einen starken Schwerpunkt auf das Testen von Modellen und verdeutlicht die Vorteile des Bayes'schen Workflows, der es erlaubt so viel wie möglich aus den verfügbaren Daten zu lernen und Modellunsicherheit zu berücksichtigen.