Computational analysis and interpretation of multi-omics data
In the last decade, with huge advances in high throughput sequencing (HT-seq) technologies and rapidly decreasing costs, cell and molecular biology are becoming increasingly a heavily "data-driven" science. HT-seq has transformed the scientific landscape in biology by allowing researchers to answer important biological questions in multiple biological layers with multi-omics data. In this thesis, I will introduce my work on computational analysis, interpretation and application of multi-omics data on bulk as well on single cell levels.
RNA-seq, the next-generation sequencing of RNAs is a powerful method to characterize genome-wide differential gene expression between different conditions. ChIP-seq, the high throughput chromatin immuno-precipitation sequencing technology has been a powerful tool to identify genome-wide profiles of histone modifications which have been identified to be the key epigenetic mechanisms in the regulation of gene expression. More and more studies start analyzing simultaneously the combination of RNA-seq data and ChIP-seq data of different histone modifications across different conditions. The integrative analysis of these corresponding data sets, in principle, becomes a desirable option to study gene regulation in the complex and dynamic biological processes for example in organ development and disease progression. However, computational tools for such analyses are still technically in their infancy. In the first part of this thesis, I introduce intePareto, a novel method to prioritize genes with consistent changes in RNA-seq and ChIP-seq data of different histone modifications between different conditions using Pareto optimization.
In addition to the rapid development and applications in bulk sequencing of pooled cell populations discussed above, the past decade has witnessed tremendous progress in single cell RNA sequencing (scRNA-seq) technologies which have further revolutionized our understanding of the fundamental biological and physiological phenomena at the single cell resolution. The scRNA-seq technology allows unprecedented detailed characterizations of heterogeneity of cell populations previously believed to be homogeneous, or identification of a continuous spectrum cell trajectory previously hidden in pooled cell populations. However, scRNA-seq also brings computational challenges due to the small amount of material available in each single cell for sequencing, resulting in high sparsity of the data with abundance of observed zeros also known as "dropout" or zero-inflation in scRNA-seq counts. The high proportion of zeros observed in many genes poses a big challenge for further downstream data analysis and interpretation, and is therefore a major research focus. Some believe the abundant zeros are attributed to technical artifacts and should be corrected with non-zeros, thus different imputation methods and tools have been designed to explicitly correct the zeros, i.e. to impute the "dropout" with appropriate values to hopefully better represent the true expression values. Zero-inflated models are therefore widely used to model the scRNA-seq data, and zero-inflation is even treated as an inherent property of scRNA-seq data. However, this "dropout" or zero-inflation problem is far from being fully understood. It is necessary to understand the source of observed zeros before imputation method or zero-inflated model is designed and adopted. In the second part of this thesis, we provide convincing empirical evidence showing that the dichotomy of zero-inflation in scRNA-seq data is between read counts and UMI counts, and not between droplet-based and plate-based platforms, and that large number of "unexpected zeros" (zero-inflation) in read counts are due to amplification bias, and should not be blindly imputed or modeled by zero-inflation models.
From the end of 2019, there was an unprecedented COVID-19 pandemic caused by SARS-CoV-2. COVID-19 in severe form is a systemic disease leading to multi-organ dysfunction. The current research on SARS-CoV-2/COVID-19 with respect to virus entry routes and innate immune responses is still in a paradoxical state: the rapid accumulation of data frequently also increases the confusion about what we actually know. One reason for this paradox could be that the bulk of the data comes from many small studies from which general conclusions are drawn overhastily. In this situation, a meta-study that analyzes larger clusters of comparable data from several studies could bring more clarity. In the third part of this thesis, I introduce comprehensive comparative analyses with RNA-seq data sets of different cells infected with SARS-CoV, MERS-CoV and SARS-CoV-2, as well as RNA-seq data from COVID-19 patients. In addition, the dynamics of neutrophils and neutrophil extracellular traps are also examined in the progression of COVID-19. We have presented evidence for multiple SARS-CoV-2 entry mechanisms. We have also dissolved apparent conflicts on cellular innate immune responses to SARS-CoV-2 infection. Our results emphasize the complex interactions between host cells and SARS-CoV-2, offering new insights into the pathogenesis of SARS-CoV-2, and can further inform the development of antiviral drugs.
In brief, in this thesis I have examined various topics in regard to computational integration, interpretation of high-throughput sequencing data in bulk and single cell levels, as well as the application of large scale sequencing data analysis and interpretation to gain insights into the pathogenesis of SARS-CoV-2 to help combat COVID-19 pandemic
In den letzten zehn Jahren hat sich die Zell- und Molekularbiologie mit enormen Fortschritten bei der Hochdurchsatz-Sequenzierung (HT-seq) und schnell sinkenden Kosten zunehmend zu einer stark datengetriebenen Wissenschaft entwickelt. In dieser Dissertation stelle ich meine Arbeit zur rechnergestützten Analyse und Interpretation von Multi-Omics-Daten sowohl von Zellgemischen als auch auf Einzelzellebene vor.
RNA-seq, die HT-seq von RNAs, ist eine leistungsstarke Methode zur Charakterisierung der genomweiten differentiellen Genexpression zwischen verschiedenen Bedingungen. ChIP-seq ist eine HT-seq-Technik, zur Identifizierung genomweiter Profile von His-tonmodifikationen – ein wichtiger epigenetischer Mechanismus zur Regulation der Gen-expression. Immer mehr Studien analysieren Kombinationen von RNA-seq-Daten undChIP-seq-Daten verschiedener Histonmodifikationen unter verschiedenen Bedingungen.Die integrative Analyse der entsprechenden Datensätze kann ein Licht auf Genregulation in komplexen Prozessen werfen, beispielsweise in der Organentwicklung und inKrankheitsverläufen. Berechnungswerkzeuge f ̈ur solche Analysen stecken jedoch noch in den Kinderschuhen.
Im ersten Teil dieser Arbeit stelle ich intePareto vor, eine neuartige Methode zur Priorisierung von Genen mit konsistenten Änderungen der RNA-seq- undChIP-seq-Daten verschiedener Histonmodifikationen zwischen verschiedenen Bedingungen unter Verwendung der Pareto-Optimierung.Zus ̈atzlich zu der oben diskutierten raschen Entwicklung und Anwendung bei der Massensequenzierung gepoolter Zellpopulationen wurden in den letzten zehn Jahren enormeFortschritte bei der Einzelzell-RNA-Sequenzierung (scRNA-seq) erzielt, die unser Verständnis grundlegender biologischer und physiologischer Ph ̈anomene revolutioniert. Die scRNA-seq-Technologie erm̈öglicht beispiellos detaillierte Charakterisierungen der Heterogenität von Zellpopulationen, von denen zuvor angenommen wurde, dass sie homogen sind,oder die Identifizierung kontinuierlicher Trajektorien zwischen Zellzuständen. ScRNA-seq bringt jedoch aufgrund der geringen Menge an Material, die in jeder einzelnen Zellef ̈ur die Sequenzierung verf ̈ugbar ist, große interpretatorische Probleme mit sich. Das ist zum einen die Spärlichkeit von Daten, zum anderen die Fülle von beobachteten Null-Expressionen von Genen, die auch als “Dropout” oder Null-Inflation bezeichnet wird.Einige glauben, dass die häufig vorkommenden Nullen technischen Artefakten zugeschrieben werden und mit Nicht-Nullen korrigiert werden sollten. Daher wurden verschiedene Im-putationsmethoden entwickelt, um die Nullen durch vermeintlich geeignetere Werte zu ersetzen. Null-Inflations-Modelle werden häufig zur Modellierung dieser scRNA-seq-Datenverwendet, und Null-Inflation wird oft als inhärente Eigenschaft von scRNA-seq-Datenbehandelt. Dieses ”Dropout” - oder Null-Inflations-Problem ist jedoch weit davon entfernt, vollständig verstanden zu werden. Es ist notwendig, die Quelle der beobachteten Nullen zu verstehen, bevor Imputationsmethoden oder Null-Inflations-Modelle angewendet werdenIm zweiten Teil dieser Arbeit liefern wir überzeugende empirische Beweise dafür, dassdas Auftreten von Null-Inflation in scRNA-seq-Daten nichts zu tun hat mit prinzipiellenUnterschieden zwischen tröpfchen- und plattenbasierten scRNA-seq Plattformen. DasProblem der Null-Inflation ist eher eines der Analyse von Reads im Gegensatz zu UMIs,weil erstere verzerrt werden durch Amplifikationsmethoden wie PCR, letzere aber nicht. Vom blinden Anwenden von Imputationsmethoden zur Korrektur von Null-Inflation ist also abzuraten.Seit Ende 2019 grassiert COVID-19, eine beispiellose Pandemie, verursacht durch SARS-CoV-2. COVID-19 in schwerer Form ist eine systemische Erkrankung, die zum Versagen mehrerer Organe führen kann. Die aktuelle Forschung zu SARS-CoV-2 / COVID-19 in Bezug auf Viruseintrittswege und angeborene Immunantworten befindet sich in einem paradoxen Zustand: Einerseits nimmt die Datenmenge rapide zu, andererseits auch dieVerwirrung darüber, was wir tatsächlich wissen. Ein Grund für dieses Paradox könnte sein, dass der Großteil der Daten aus vielen kleinen Studien stammt, aus denen überstürzt allgemeine Schlussfolgerungen gezogen werden. In dieser Situation könnte eine Metas-tudie, die größere Cluster vergleichbarer Daten aus mehreren Studien analysiert, mehr Klarheit bringen.
Im dritten Teil dieser Arbeit stelle ich umfassende vergleichende Analysen mit RNA-seq-Datensätzen verschiedener mit SARS-CoV, MERS-CoV und SARS-CoV-2 infizierterZellen sowie RNA-seq-Daten von COVID-19-Patienten vor. Darüber hinaus wird die Dynamik von Neutrophilen und extrazellulären Neutrophilenfallen im Verlauf von COVID-19untersucht. Wir legen Beweise für mehrere SARS-CoV-2-Eintrittsmechanismen vor, und wir lösen vermeintliche Konflikte bezüglich zellulärer angeborener Immunantworten auf SARS-CoV-2-Infektionen. Unsere Ergebnisse betonen die komplexen Wechselwirkungenzwischen Wirtszellen und SARS-CoV-2, bieten neue Einblicke in die Pathogenese vonSARS-CoV-2, und können die Entwicklung antiviraler Medikamente fördern.