RNA structure prediction guided by co-evolutionary information - method development and applications

Ribonucleic acids (RNAs) are critical players in cellular activities. They are, e.g., involved in coding, decoding, regulation, and expression of genes. Their function is related to their three-dimensional (3D) structure. Consequently, understanding their structure is critical for understanding their function. Technological advances in high-throughput sequencing methods have made it possible to sequence many RNAs. The sequenced RNAs are stored in public databases, and the number of sequenced RNAs keeps growing. Nevertheless, the vast majority of them lack the corresponding three-dimensional structure---since RNA molecules are incredibly flexible, experimental RNA structure determination is challenging. A complementary approach is to use computer simulations to model RNA 3D structure starting from the sequence.

Such computer simulations to predict bio-molecular 3D structure can be highly challenging as the energy landscape is enormous and complex. Including a priori information in molecular modeling tools can help guide structure prediction more
accurately by reducing the search space to the energy landscape. A particular example is providing pairs of nucleobases known to be spatially proximal as restraints. While several experimental approaches exist, a theoretical approach uses sophisticated statistical and machine learning algorithms to mine information about nucleobase pairs from sequences.


During the course of evolution, RNAs undergo mutations. Mutations that do not adversely affect survival take place randomly. However, others must occur in tandem--a change in nucleobase of an RNA in one place can trigger a complementary change in sequentially far region in the RNA sequence but in proximity within the 3D structure---to preserve the structure and function of RNA and ensure the survival of organisms.

Coordinated mutations leave imprints of nucleotide pair co-evolution, and this co-evolutionary information may be extracted from multiple sequence alignment (MSA) of homologous RNAs using sophisticated algorithms. In the last decade, inverse statistical methods based on generative models known as direct-coupling analysis (DCA) have shown tremendous success in predicting spatially adjacent residue pairs of proteins from MSA data. These pairs are incorporated with molecular modeling tools resulting in accurate protein 3D structure prediction at the level of experimental resolution. Inverse statistical methods are also recently started to be used in RNA 3D structure prediction, but their success is somewhat limited compared to protein structure prediction.

This thesis presents a new and improved RNA contact prediction method and its application for RNA 3D structure prediction. In particular, the thesis (i) presents software implementation of state-of-the-art DCA algorithms that are contained in a light-weight, stand-alone, and open-source software; (ii) makes available a curated RNA dataset to test and compare the performance of contact prediction algorithms on the dataset; (iii) introduces a new and improved RNA contact prediction algorithm based on a combination of DCA and convolutional neural network that improves RNA contact prediction from MSA and; (iv) finally, provides a workflow for the RNA 3D structure prediction using putative contacts obtained from the new algorithm as restraints with a molecular modeling tool based on coarse-grained replica-exchange Monte-Carlo method.

 

Ribonukleinsäuren (RNAs) spielen eine entscheidende Rolle bei zellulären Aktivitäten. Sie sind z.B. an der Kodierung, Dekodierung, Regulation und Expression von Genen beteiligt. Ihre Funktion ist direkt mit ihrer dreidimensionalen (3D) Struktur verbunden. Folglich ist das Verständnis ihrer Struktur entscheidend für das Verständnis ihrer Funktion. Technologische Fortschritte bei Hochdurchsatz-Sequenzierungsmethoden haben es ermöglicht, viele RNAs zu sequenzieren. Die sequenzierten RNAs werden in öffentlichen Datenbanken gespeichert, und die Anzahl der sequenzierten RNAs wächst weiter. Trotz der riesigen Datenmenge meisten fehlt oft die entsprechende dreidimensionale Struktur - da RNA-Moleküle unglaublich flexibel sind, ist die experimentelle Bestimmung der RNA-Struktur eine Herausforderung. Ein komplementärer Ansatz besteht darin, Computersimulationen zu verwenden, um die RNA-3D-Struktur ausgehend von der Sequenz zu modellieren.

Computersimulationen zur Vorhersage der biomolekularen 3D-Struktur ausgehend von der Sequenz können eine große Herausforderung darstellen, da die Energielandschaft groß und komplex ist. Das Einbeziehen von A-priori-Informationen in molekulare Modellierungswerkzeuge kann dabei helfen, die Strukturvorhersage besser zu steuern durch Reduzieren des Suchraums der Energielandschaft. Ein besonderes Beispiel ist die Bereitstellung von Paaren von Nukleobasen, von denen bekannt ist, dass sie in räumlicher Näher befinden. Während es dazu mehrere experimentelle Ansätze gibt, verwendet ein theoretischer Ansatz ausgefeilte statistische und maschinelle Lernalgorithmen, um Informationen über Nukleobasenpaare aus Sequenzen zu gewinnen.

Im Verlauf der Evolution unterliegen RNAs Mutationen. Mutationen, die das Überleben nicht beeinträchtigen, finden zufällig statt. Andere müssen jedoch gleichzeitig auftreten - eine Änderung der Nukleobase einer RNA an einer Stelle löst eine komplementäre Änderung in großer Entfernung in der RNA-Sequenz, jedoch proximal innerhalb der 3D-Struktur aus, um Struktur und Funktion der RNA zu erhalten und damit das Überleben von Organismen zu ermöglichen. Koordinierte Mutationen hinterlassen daher Abdrücke der Koevolution von Nukleotidpaaren, und diese koevolutionäre Information kann unter Verwendung ausgefeilter Algorithmen aus dem Multiple Sequence Alignment (MSA) homologer RNAs extrahiert werden. In den letzten zehn Jahren haben inverse statistische Methoden, die auf generativen Modellen basieren, die als Direct Coupling Analysis (DCA) bekannt sind, enorme Erfolge bei der Vorhersage räumlich benachbarter Proteinrestpaare aus MSA-Daten gezeigt. Diese Paare können von molekularen Modellierungswerkzeugen genutzt werden und führen zu einer genaueren Vorhersage der Protein-3D-Struktur. Inverse statistische Methoden werden seit kurzem auch für die Vorhersage der RNA-3D-Struktur eingesetzt, ihr Erfolg ist jedoch im Vergleich zur Vorhersage der Proteinstruktur bisher begrenzt.

In dieser Arbeit wird eine neue und verbesserte Methode zur Vorhersage von RNA-Kontakten und ihre Anwendung zur Vorhersage der RNA-3D-Struktur vorgestellt. In der Arbeit (i) wird insbesondere die Open Source Software-Implementierung von DCA-Algorithmen auf dem neuesten Stand der Technik vorgestellt; (ii) ein kurierten RNA-Datensatz zur Verfügung gestellt, um die Leistung von Kontaktvorhersagealgorithmen für den Datensatz zu testen und zu vergleichen; (iii) wird ein neuer und verbesserter Algorithmus zur Vorhersage von RNA-Kontakten basierend auf einer Kombination von DCA und Faltungs-Neuronales Netzwerk vorgestellt, der die Vorhersage von RNA-Kontakten verbessert; (iv) stellt schließlich einen Workflow für die Vorhersage der RNA-3D-Struktur unter Verwendung vorhergesagter Kontakte vor.

Cite

Citation style:
Could not load citation form.

Rights

Use and reproduction:
All rights reserved

Export