A toolkit to quantify the sampling quality of molecular dynamics trajectories : studying highly flexible biomolecules

In this computational work, we investigate the sampling of molecular dynamics (MD) simulations of the two highly flexible biomolecules: Methionine-enkephalin (Met-Enkephalin) and the third variable loop (V3) of the glycoprotein 120 (gp120) from the human immunodeficiency virus type-1 (HIV-1). The conformational dynamics of the three-dimensional (3D) protein structures are of central importance for the biomolecular function. A common possibility to obtain these dynamics at atomic resolution are MD simulations. But reaching a converged MD sampling in adequate time is limited by the huge conformational space of flexible systems. Moreover, an automatic sampling validation is still not established as settled protocol in today's MD studies. Furthermore, existing tools aim primarily to investigate single trajectory convergence which is not always practical for flexible molecules. But in fact, a universal assessment is necessary to classify, whether the sampling is sufficient or not. Otherwise the extracted thermodynamic results are completely meaningless. The aim of this work is to develop a toolkit to quantitatively assess the MD sampling quality for flexible systems. This toolkit is freely available at https://github.com/MikeN12/PySamplingQuality. We use diverse sets of trajectories with different initial conformations along with enhanced sampling techniques such as accelerated MD (aMD) and scaled MD (sMD). These distort the energy landscape to ease conformational transitions. The sampling is assessed by two new quantities, the conformational Oconf and density overlap Odens, including also the cluster number Nc and cluster distribution entropy Sc. These new overlap quantities measure the self-consistency of sampling as a necessary condition for complete sampling. We use Met-Enkephalin as benchmarking system because of its small size but non-trivial dynamics. Our tool reveals that the MD sampling of already such a small molecule converges in a microsecond regime. Furthermore, we can show that aMD is the most efficient algorithm to assess the convergence and also to detect wrong sampling. However, Odens analysis comparing MD with aMD/sMD reveals that we have not completely corrected the bias from enhanced sampling. Therefore, Odens can also be used to compare different methods. On the other hand, V3 demonstrates that much more resources must be spent to achieve convergence compared to those generally invested today. The results highlight the necessity of a multi-trajectory approach to detect incomplete sampling. Altogether, we are able to generate a universally and easily applicable toolkit to assess the MD sampling quality of any kinds of multi-trajectory experiments using certain error estimates and decide, whether the extracted thermodynamic properties are correct or not.

In dieser Arbeit wird das Sampling von Molekulardynamik (MD) Simulationen von zwei flexiblen Biomolekülen untersucht: Methionin-Enkephalin (Met-Enkephalin) und dem dritten variablen Loop (V3) des Glykoproteins 120 (gp120) des Humanen Immundefizienz-Virus Typ-1 (HIV-1). Die Dynamik von drei-dimensionalen (3D) Protein-Strukturen ist von zentraler Bedeutung für die Beschreibung der biomolekularen Funktion. Die Dynamik wird mittels MD Simulationen auf atomarem Level untersucht. Das Erreichen eines konvergierten MD Samplings in adäquater Zeit ist jedoch durch den riesigen Konformationsraum von flexiblen Molekülen begrenzt. Des Weiteren ist eine automatische Validierung des Samplings bisher nicht etabliert in heutigen MD Studien, und existierende Verfahren konzentrieren sich vorwiegend auf die Konvergenzanalyse einzelner Trajektorien. Dies ist für flexible Moleküle problematisch. Dabei ist es notwendig ein ausreichendes Sampling zu quantifizieren, ansonsten sind berechnete thermodynamische Größen bedeutungslos. Das Ziel dieser Arbeit ist die Entwicklung eines Toolkits, welches die Samplingqualität von MD Simulationen von flexiblen Systemen quantifiziert. Dieses ist frei verfügbar unter https://github.com/MikeN12/PySamplingQuality. Hierzu werden verschiedene Sätze von Trajektorien aus verschiedenen Startkonformationen und sogenannte Enhanced Sampling Algorithmen wie accelerated MD (aMD) und scaled MD (sMD) kombiniert. Diese modifizieren die Energielandschaften um Übergänge zu vereinfachen. Die Samplingqualität wird durch zwei neue Messungen quantifiziert, dem Konformations- Oconf und Dichteüberlapp Odens, unter Hinzunahme der Clusteranzahl Nc und der Entropie der Clusterverteilung Sc. Diese neuen Überlappgrößen klassifizieren die Selbstkonsistenz. Met-Enkephalin wird als Testsystem verwendet, aufgrund dessen geringer Peptidlänge aber dennoch hochflexiblen Verhaltens. Unser Tool zeigt, dass bereits ein so kleines Molekül Simulationen von Mikrosekunden zur Konvergenz des Samplings benötigt. Weiterhin gilt, dass aMD sowohl Konvergenz als auch ungenügendes Sampling am schnellsten erkennt. Dennoch hat der Vergleich von Odens zwischen MD und aMD/sMD gezeigt, dass die Modifikation des Enhanced Samplings nicht vollständig wiederhergestellt werden konnte. Dies kann jedoch mittels Odens untersucht werden. V3 hingegen beweist, dass viel mehr Ressourcen als gewöhnlich notwendig sind, um Konvergenz zu erhalten. Die Ergebnisse unterstreichen die Notwendigkeit eines Multitrajektorien Ansatzes, um ungenügendes Sampling eindeutig zu erkennen. Zusammenfassend ist es mit dem Toolkit möglich, das Sampling von Multitrajektorie-Experimenten zu validieren, unter der Angabe von Fehlerabschätzungen, und zu entscheiden, ob die berechneten thermodynamischen Größen korrekt beschrieben werden.

Vorschau

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten