Computational identification and characterization of genotype-phenotype associations

The adaptive immune system is essential in defending the host against diverse and rapidly evolving pathogens, or controlling diseases such as cancer. To perform its duty, the adaptive immunity depends on enormously diverse repertoires of B- and T-cell receptors (BCRs and TCRs). In light of the rapid advancement in high-throughput sequencing (HTSeq) technologies, it is now possible to study the properties of these repertoires, which is central to the development of vaccines, new prognostic markers, and treatments for cancer and autoimmune diseases. One challenge in extracting biologically meaningful information from HTSeq data comes from the fact that this data is both complex and massive. We can anticipate that additional improvements in HTSeq technologies will generate even larger datasets with hundreds of millions of sequenced reads from potentially hundreds or thousands of individuals. To meet these challenges, we need new computational methods. Furthermore, the biological processes that contribute to the diversity of BCR repertoires are stochastic in nature. This calls for the use of probabilistic modeling to accurately describe these processes.

I begin this thesis with an introduction of the most relevant concepts of B-cell mediated immunity (chapter 1). This is followed by general introduction of probabilistic modeling for Bayes inference (chapter 2). The main result of this thesis are computational methods, which are summarized in two publications (chapter 3).

In the first publication (section 3.1), I introduce IgGeneUsage, a computational tool for probabilistic detection of differential Ig gene usage under different biological conditions (e.g. infected vs. healthy subjects). We know that V(D)J recombination of different germline-encoded Ig genes is an important component that contributes to the enormous diversity of BCR repertoires. Detection of disrupted usage of Ig genes has previously been reported e.g. in chronic lymphocytic leukemia, where specific Ig gene disruptions may be used as prognostic markers for different diseases. Despite the importance of this feature, most analyses of differential Ig gene usage are either qualitative, or rely on inadequate statistical methods. IgGeneUsage employs a hierarchical probabilistic model for Bayes inference, and is able to cope with complex and noisy Ig gene usage data. The results reported by IgGeneUsage are statistically sound, and easy to interpret by non-statisticians. The performance of IgGeneUsage was compared against tools that are commonly used for differential Ig gene usage, such as the Welch’s t-test (t-test) and Wilcoxon signed-rank test (U-test). This evaluation was performed based on publicly available data of human BCR repertoires, where biologically replicated datasets were available for each repertoire. The evaluation revealed that IgGeneUsage generates consistent results in each replicate, whereas the t- and U-test produce divergent results. In the second publication (section 3.2), I introduce the results of a collaborative project in which we examined the effects of chronic Hepatitis C Virus (HCV) infection on the human BCR repertoire. This involved diverse computational analyses based on HTSeq data of human immunoglobulin heavy chain VDJ rearrangements, obtained from different B-cell populations in healthy and HCV infected individuals. In patients infected with HCV, our analyses revealed large perturbations such as aberrant Ig gene usage, clonal expansions, and changes in CDR3 length. To perform these analyses, we have developed numerous computational methods for the different stages of BCR repertoire profiling.

Das adaptive Immunsystem ist essentiell für die Abwehr von diversen und sich schnell entwickelnden Krankheitserregern, sowie für das Bändigen von Krankheiten wie Krebs. Um seine Aufgabe zu erfüllen, stützt sich die adaptive Immunität auf immens große und vielfältige Repertoires von B- und T-Zellen Rezeptoren (BCRs und TCRs). Angesichts der raschen Fortschritte bei den Hochdurchsatz-Sequenzierungstechnologien (HTSeq) ist es nun möglich, die Eigenschaften dieser Repertoires zu untersuchen, was für die Entwicklung von Impfstoffen, neuen Prognosemarkern und Behandlungen für Krebs und Autoimmunerkrankungen von zentraler Bedeutung ist. Eine große Herausforderung bei der Gewinnung biologisch bedeutsamer Informationen aus HTSeq-Daten besteht in der Tatsache, dass diese Daten sowohl komplex als auch enorm sind. Wir können davon ausgehen, dass die Verbesserungen der HTSeq-Technologien noch größere Datensätze mit Hunderten von Millionen sequenzierten Lesevorgängen von möglicherweise Hunderten oder Tausenden von Personen generieren werden. Um diesen Herausforderungen zu begegnen, benötigen wir neue Berechnungsmethoden. Darüber hinaus sind die biologischen Prozesse, die zur Vielfalt der BCR-Repertoires beitragen, stochastischer Natur. Dies erfordert die Verwendung probabilistischer Modelle, um diese Prozesse genau zu beschreiben. Ich beginne diese Dissertation mit einer Einführung in die wichtigsten Konzepte der B-Zellen-vermittelten Immunität (Kapitel 1). Darauf folgt die allgemeine Einführung der probabilistischen Modellierung für die Bayes-Inferenz (Kapitel 2). Das Hauptergebnis dieser Doktorarbeit sind Berechnungsmethoden, die in zwei Veröffentlichungen zusammengefasst sind (Kapitel 3).

In der ersten Veröffentlichung (Abschnitt 3.1) stelle ich IgGeneUsage vor - ein Berechnungswerkzeug zum probabilistischen Nachweis der unterschiedlichen Verwendung von Ig-Genen unter verschiedenen biologischen Bedingungen (z.B. infizierte vs. gesunde Probanden). Wir wissen, dass die V(D)J-Rekombination verschiedener keimbahnkodierter Ig-Genen eine wichtige Komponente ist, die zur enormen Vielfalt der BCR-Repertoires beiträgt. Der Nachweis einer gestörten Verwendung von Ig-Genen wurde bereits berichtet u.a. bei der chronischen lymphatischen Leukämie, bei der spezifische Ig-Genstörungen als Prognosemarker für verschiedene Krankheiten verwendet werden können. Trotz der Bedeutung dieses Merkmals sind die meisten Analysen der differentiellen Ig-Genverwendung qualitativ oder beruhen auf unzureichenden statistischen Methoden. IgGeneUsage verwendet ein hierarchisches Wahrscheinlichkeitsmodell für die Bayes-Inferenz und ist in der Lage, mit komplexen und verrauschten Ig-Genverwendungsdaten zurechtzukommen. Die Ergebnisse von IgGeneUsage sind statistisch fundiert und für Nichtstatistiker leicht zu interpretieren. Die Qualität der Ergebnisse von IgGeneUsage wurde mit Tools verglichen, die üblicherweise für die differentielle Verwendung von Ig-Gene verwendet werden, wie dem Welch-t-Test (t-Test) und dem Wilcoxon-Signed-Rank-Test (U-Test). Diese Bewertung wurde auf der Grundlage öffentlich verfügbarer Daten menschlicher BCR-Repertoires durchgeführt, wobei für jedes Repertoire biologisch replizierte Datensätze verfügbar waren. Die Auswertung ergab, dass IgGeneUsage in jedem Replikat konsistente
Ergebnisse liefert, während der t- und U-Test unterschiedliche Ergebnisse erbringen. In der zweiten Veröffentlichung (Abschnitt 3.2) stelle ich die Ergebnisse eines Kooperationsprojekts vor, in dem wir die Auswirkungen einer chronischen Hepatitis-C-Virus-Infektion (HCV) auf das menschliche BCR-Repertoire untersuchten. Dies beinhaltete verschiedene rechnerische Analysen basierend auf HTSeq-Daten von VDJ-Umlagerungen der schweren Kette des menschlichen Immunglobulins, die aus verschiedenen B-Zellpopulationen bei gesunden und HCV-infizierten Personen erhalten wurden. Bei Patienten, die mit HCV infiziert waren, ergaben unsere Analysen große Störungen wie die ungewöhnliche Verwendung von Ig-Genen, klonale Expansionen und Änderungen der CDR3-Länge. Um diese Analysen durchzuführen, haben wir zahlreiche Berechnungsmethoden für die verschiedenen Stufen der BCR-Repertoire-Profilerstellung entwickelt.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten