Statistical analysis of sequence populations in virology and immunology

In this thesis I have examined various topics regarding the relationship between viruses and the human immune system. I expanded and refined a tool (which can now be found as R-package SeqFeatR on C-RAN) for the analysis of sequence data and features of this sequences like HLA type or tropism (see chapter 4) and checked with this tool if there are differences between some multiple correction approaches for sequence data, and how Bayesian inference could be used in this context (see chapter 5). It could be shown that Bayesian inference is superior to the frequentistic methods for this kind of problem, because multiple correction approaches ignore the fact that different positions in a sequence alignment may be connected in the protein product of this sequence and are therefor not independent. Furthermore, I have examined sequences from HCV with a form of bootstrap algorithm to find sequence areas which can be used in unknown transmission cases in court. Two areas were found, one in the hypervariable region and the other at the end of the non-structural protein NS5B (see chapter 9). Proteasomal cleavage of alien amino acid sequences inside human cells leads to a presentation of fragments of these sequences on the surface of the cell as epitopes. To present such a fragment, not only must it bind to the MHC, but also needs to be in the correct length to be presented. Therefore viral evolution should favor those viruses, which cannot be cut into presentable epitopes. With epitope data from IEDB and predicted viral sequences which bind the MHC, I searched for amino acids inside the flanking regions around the epitope that may indicate a possible escape mutation against the proteasomal cleavage processes. Fourteen such amino acids and positions were found (see chapter 7). I created a model of HBV reverse transcriptase to check if mutations in certain positions could influence binding with the nucleotide analogue reverse transcriptase inhibitor Tenofovir. Mutations which were inside the binding pocket for Tenofovir showed, in an experimental design by the group of Mengji Lu, a decreased affinity towards the drug (see chapter 10). Together with Ralf Küppers group I examined NGS from different types of B cells to search for almost identical sequences between those. We found similar to identical sequences from two, three and even four kinds of cells in the blood samples of both donors (see chapter 6).
In dieser Dissertation bearbeitete ich verschiedene Themen aus dem Bereich der humanpatho-genen Viren und des menschlichen Immunsystems. Zu diesem Zweck entwarf ich ein Programm (welches auf dem R-Archiv C-RAN unter dem Namen SeqFeatR zu finden ist) mit dem sich der Zusammenhang zwischen Sequenzdaten und spezifischen Eigenschaften, wie etwa HLA Typ oder Tropismus, analysieren läßt (s.h Kapitel 4). Mit diesem Programm untersuchte ich ob ein Unterschied zwischen den Verfahren zur Korrektur von Alphafehler-Kumulierung bei Sequenzdaten besteht und in welchem Maße die Verfahren der Bayesschen Statistik besser für diese geeignet sind (s.h. Kapitel 5). Dabei stellte sich heraus, dass letztere für diese Klasse von Problemen eher verwendet werden sollten, da Alphafehler-Kumulierungskorrekturen möglichen Abhängigkeite zwischen verschiedenen Sequen-zpositionen, welche sich unter Umständen erst im fertigen Protein offenbaren, ignorieren. Weiterhin untersuchte ich HCV Sequenzen mittels einer Variante des Bootstrap-Algorithmus um jene Sequenz-Bereiche zu finden, die im Falle von ungeklärten Übertragungswegen zur Identifizierung dieser genutzt werden können. Dabei stellten sich zwei Bereiche als besonders geeignet heraus: Die hypervariable Region sowie ein Bereich am Ende des Nicht-Struktur Protein NS5B (s.h. Kapitel 9). Die Spaltung von fremden Aminosäuresequenzen innerhalb von menschlichen Zellen durch das Proteasom kann zu einer Präsentation dieser Fragmente auf der Zelloberfläche als Epitope führen. Um solche Fragmente präsentieren zu können, müssen diese nicht nur an das spezifische MHC Molekül binden, sondern auch eine optimale Länge besitzen. Daher sollte der evolutionäre Prozess solche Viren fördern, deren Sequenzen sich nicht in entsprechende Stücke zerteilen lassen. Durch eine Kombination von Epitopdaten aus der IEDB und vorhergesagten viralen Sequenzen, welche sicher an MHC Moleküle binden, untersuchte ich, ob innerhalb der flankierenden Regionen um das jeweilige Epitop Sequenzpositionen existieren, welche auf eine Mutation hinweisen, die den Schnittmechanismus der Zelle verhindert. Ich fand vierzehn Aminosäuren und Positionen, die einen solchen Zusammenhang besitzen können (s.h. Kapitel 7). Um heraus zu finden ob es in der reversen Transkriptase von HBV Positionen gibt, welche die Bindung mit dem nukleotidischen Reverse-Transkriptase-Inhibitor Tenofovir beeinflussen, erstellte ich ein Modell dieses Enzyms. Mutationen, die innerhalb der Bindetasche für Tenofovir lagen, führten in einer Versuchsreihe von der Gruppe von Mengji Lu zu einer verringerten Affinität zw ischen Enzym und Medikament (s.h. Kapitel 10). Zusammen mit der Gruppe von Ralf Küppers untersuchte ich Hoch-Durchsatz-Sequenzdaten von verschiedenen Arten von B Zellen um ähnliche Sequenzen zu finden. Wir fanden ähnliche und sogar identische Sequenzen zwischen zwei, drei und sogar allen vier Arten von Zellen jeweils innerhalb der Blutproben jedes der beiden Spender (s.h Kapitel 6).

Vorschau

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Dieses Werk kann unter einer
CC BY-NC-ND 4.0 LogoCreative Commons Namensnennung - Nicht kommerziell - Keine Bearbeitungen 4.0 Lizenz (CC BY-NC-ND 4.0)
genutzt werden.