Development of computational tools for the in silico design and optimization of bioactive peptides

Peptides are important therapeutic molecules due to their biocompatibility, biodegradability, and selectivity. Their biochemistry makes peptides suitable for mimicking the binding site of proteins, for the inhibition of disease-relevant protein-protein interactions, and to address the problem of multi-drug resistance, among other applications. Therefore, much attention has been devoted in recent years to the design and optimization of bioactive peptides. Frequently, the discovery of new drugs starts with the analysis of large peptide libraries. However, the experimental screening of such libraries is expensive and time-consuming. In silico approaches that potentially reduce the list of candidates for further improvement are essential for modern drug design.

Several machine-learning-based predictors of protein-protein interactions have emerged in the last decades. Based on the available information, these predictors have been trained, for instance, to detect protein interactions or the lack of them (classification problem), or to predict binding affinity (BA) as a regression problem. However, regardless of the output variable, most models introduced so far suffer from low generalization capabilities, displaying high variance when predicting unseen data. Additionally, within the context of protein-protein and protein-ligand interactions, most methods contemplate peptides in the same way as proteins or small organic ligands. This consideration underestimates the specificity of short peptide sequences and results in poor performance in predicting protein-peptide interactions. Similarly, machine-learning-based methods aiming to identify therapeutic molecules, such as antimicrobial peptides (AMPs), have been introduced. However, many of these methods are not able to predict a specific function for putative AMPs, such as antibacterial activity. Consequently, in the search for bioactive peptides to address multi-drug resistance in bacteria, state-of-the-art tools display limited precision in predicting antibacterial activity and generally lack further information about the possible targets. Thus, novel computational methods to accurately aid the de novo design of bioactive peptides are needed. In this work, my aim was to leverage machine learning (ML) techniques to create tools to study bioactive peptides (Table 1). My work focused on:

(1) A sequence-based predictor of protein-protein and protein-peptide interactions applicable to the identification of lead compounds from extensive in silico screening of protein-peptide interactions. The model is a classifier that predicts the likelihood of interaction. It was created by exploiting information annotated on various public databases and by using Support Vector Machines (SVM). The output model was implemented as a web tool named PPI-Detect. The ML study utilized the molecular descriptors implemented in ProtDCal, a tool for the numerical codification of proteins, which was validated in diverse studies. ProtDCal was initially intended to encode individual proteins. Thus, the modeling of the sequence-based predictor required introducing a novel procedure to encode the information of two individual amino acid sequences into unique numerical descriptors. This procedure was implemented in ProtDCal and made available for future data-driven studies encompassing the analysis of protein pairs.

(2) Predictors of protein-protein and protein-peptide binding affinities for 3D structures, with applications for mutagenesis experiments and protein engineering. The ML models utilized information annotated on various public databases. Both modeling processes were conducted using SVM and the output models were implemented as a web tool named PPI-Affinity. The web server allows, in addition to the BA estimation, the optimization of a putative peptide sequence for which a 3D complex structure has been resolved. In addition, the implemented functionalities permit the generation of thousands of peptide derivatives by performing substitutions and/or deletions on the peptide residues located at the interface of contact of the protein-peptide complex.

(3) A tool to identify antibacterial peptides (ABPs) and the Gram-staining type of targeted bacteria, with applications for the identification of lead peptides with the potential to tackle multi-drug resistance. The predictor of ABPs, named ABP-Finder, was implemented by me as a web server. Before the step of prediction by the model takes place, the server permits the breakdown of protein sequences into short peptide fragments. Such functionality finds application in the discovery of protein domains with antibacterial activity.

(4) The ML tools mentioned in (1) – (3) utilized the molecular descriptors implemented in ProtDCal. Originally, ProtDCal was implemented as a standalone application. In this work, I aimed to extend the applicability of ProtDCal and to facilitate the use of models created using the ProtDCal codification approach. To this end, my aims were: To implement a web platform to permit (i) the generation of ProtDCal molecular descriptors for data-mining purposes and (ii) the application of ProtDCal-based tools for virtual screening in the early steps of peptide discovery. The resulting web server, named ProtDCal-Suite, provides access to the ML-based methods introduced in this work and to other tools previously published, facilitating the functional analysis of proteins and peptides. Additionally, the online interface of the ProtDCal software includes a post-processing optional functionality to rank and filter the molecular descriptors according to the Shannon entropy values of the input set of proteins. The developed tools allow for the virtual screening of peptides at the early stages of the drug design process involving peptide-based pharmaceuticals. ProtDCal-Suite is freely accessible at

Table 1. List of tools developed within this work.




A sequence-based predictor of protein-protein and protein-peptide interactions.


A tool to predict and optimize the binding affinity of protein-protein and protein-peptide complexes.


A tool to identify antibacterial peptides and the Gram-staining type of targeted bacteria.


A web platform to facilitate (i) the generation of ProtDCal molecular descriptors and (ii) the application of ProtDCal-based tools for the virtual screening of peptide libraries.

The generalization capability of the models trained by me was validated by assessing the models’ performance on several external test sets that included experimental data. PPI-Detect was used to study derivatives of EPI-X4, an endogenous peptide inhibitor of the chemokine receptor CXCR4. This analysis resulted in the identification of a shorter and more active derivative of EPI-X4. PPI-Affinity was evaluated in the ranking of mutants of EPI-X4 coupled to CXCR4, and peptides forming complexes with the serine proteases HTRA1 and HTRA3. The evaluation for PPI-Affinity on the different test sets evidenced that the protein-protein BA predictor ranks among the top state-of-the-art BA predictors to date. Moreover, to the best of my knowledge, our protein-peptide BA predictor was the first tool trained on data comprised exclusively of diverse protein-peptide structures. ABP-Finder,on the other hand, ranked on top of the state-of-the-art predictors of antibacterial peptides, particularly in terms of precision. ABP-Finderwas usedto screen a large peptide library from the human urine peptidome. Based on this virtual screening study, a novel antibacterial peptide was experimentally established.

Wegen ihrer Biokompatibilität, biologischen Abbaubarkeit und Selektivität sind Peptide wichtige therapeutische Moleküle. Aufgrund ihrer Biochemie eignen sich Peptide unter anderem zur Imitation der Bindungsstellen von Proteinen, zur Inhibition krankheitsrelevanter Protein-Protein-Interaktionen und um das Problem der Multiresistenz zu studieren. Deshalb wurde in den letzten Jahren der Entwicklung und Optimierung bioaktiver Peptide viel Aufmerksamkeit gewidmet. Die Entdeckung neuer Arzneimittel beginnt oft mit der Analyse großer Peptidbibliotheken. Das experimentelle Screening solcher Bibliotheken ist jedoch teuer und zeitaufwändig. In-silico-Methoden, die die Zahl der Kandidaten mit verbesserten Eigenschaften reduzieren können, sind für das moderne Drogendesign unerlässlich.

In den letzten Jahrzehnten wurden mehrere Methoden für Protein-Protein-Interaktionen entwickelt, die auf machine learning (ML) basieren. Anhand der verfügbaren Informationen wurden diese Methoden trainiert, um beispielsweise Proteininteraktionen zu erkennen (Klassifizierungsproblem) oder um die Bindungsaffinität (BA) als Regressionsproblem vorherzusagen. Unabhängig von der vorhergesagten Variable leiden die meisten der bisher vorgestellten Methoden jedoch unter einer geringen Generalisierungsfähigkeit, da sie eine hohe Varianz bei der Vorhersage von neuen Daten aufweisen. Darüber hinaus werden Peptide im Bereich der Protein-Protein- und Protein-Ligand-Interaktionen von den meisten Methoden auf die gleiche Weise behandelt wie Proteine oder kleine organische Liganden. Diese Überlegung unterschätzt die Spezifität kurzer Peptidsequenzen und reduziert die Leistung bei der Vorhersage von Protein-Peptid-Interaktionen. Ähnlich wurden ML-basierende Methoden auch zur Identifizierung therapeutischer Moleküle, wie z. B. antimikrobieller Peptide (AMPs), eingeführt. Viele Methoden sind jedoch nicht darauf ausgelegt, eine bestimmte Funktion für mutmaßliche AMPs vorherzusagen, wie z. B. antibakterielle Aktivität. Bei der Suche nach bioaktiven Peptiden zur Bekämpfung der Multiresistenz von Bakterien zeigen die modernen Methoden eine eingeschränkte Genauigkeit bei der Vorhersage der antibakteriellen Aktivität und es fehlen häufig weitere Informationen über die Art der möglichen Ziele. Um das akkurate De-novo-Design bioaktiver Peptide zu ermöglichen, ist die Entwicklung neuartiger computergestützter Werkzeuge notwendig. Diese Dissertation beschreibt, wie ML-Techniken dazu beitragen können, Methoden zu erstellen, mit deren Hilfe komplexe Fragestellungen im Peptidesign gelöst werden können (Table 1). Schwerpunkte der Dissertation sind:

(1) Ein sequenzbasiertes Werkzeug für Protein-Protein- und Protein-Peptid-Interaktionen, der zur Identifizierung von Leitstrukturen durch extensives in silico Screening von Protein-Peptid-Wechselwirkungen eingesetzt werden kann. Das Werkzeug basiert auf einem ML-basierten Klassifikator, der die Wahrscheinlichkeit von Interaktion vorhersagt. Das Ausgabemodell wurde durch die Nutzung von Informationen aus mehreren öffentlich zugänglichen Datenbanken und durch die Verwendung von Support Vector Machines (SVM) erstellt. Die Methode wurde als Web-Werkzeug namens PPI-Detect implementiert. Die ML-Studie nutzte die gleichen molekularen Deskriptoren, die bereits in ProtDCal implementiert sind. ProtDCal ist ein Programm für die numerische Kodierung von Proteinen, das in mehreren Studien validiert wurde. ProtDCal wurde anfangs dazu entwickelt, einzelne Proteine zu kodieren. Daher erforderte die Modellierung des sequenzbasierten Modelles die Einführung eines neuartigen Verfahrens zur Kodierung zweier individueller Aminosäuresequenzen in eindeutigen numerischen Deskriptoren. Dieses Verfahren wurde in ProtDCal implementiert um künftigen datenbasierden Studien zur Analyse von Proteinpaaren zur Verfügung zu stehen.

(2) Werkzeuge um die Bindungsaffinitäten (BA) von Protein-Protein- und Protein-Peptid-Bindungen für 3D-Strukturen zu schätzen, mit Anwendung in Mutagenese-Experimenten und Protein-Engineering.  Die ML-Modelle verwendeten Informationen, die in öffentlichen Datenbanken gelistet sind. Beide Modellierungen wurden mit SVM durchgeführt, und die Ausgabemodelle wurden als Web-Werkzeug namens PPI-Affinity implementiert. Neben der BA-Schätzung ermöglicht die PPI-Affinity auch die Optimierung von Peptidsequenzen, für die 3D-Komplexstrukturen bestimmt wurden. Die implementierten Funktionalitäten ermöglichen die Erzeugung von Tausenden von Peptidderivaten durch Substitutionen und/oder Auslöschungen an den Aminosäureresten, die sich an der Kontaktfläche des Protein-Peptid-Komplexes befinden.

(3) Ein Werkzeug zur Identifizierung antibakterieller Peptide (ABPs) und des Gram-Färbungstyps der Zielbakterien, das zur Identifizierung von Leitpeptiden mit dem Potenzial zur Bekämpfung der Multidrogenresistenz dient. Die Methode für ABPs, genannt ABP-Finder, wurde von mir als Webserver implementiert. Das Programm ermöglicht die Zerlegung von Proteinsequenzen in kurze Peptidfragmente vor der Modellvorhersage. Diese Funktionalität findet Anwendung bei der Suche nach Proteindomänen mit antibakterieller Aktivität.

(4) Die in (1) – (3) erwähnten ML-Werkzeuge nutzten die molekularen Deskriptoren von ProtDCal. Dieses Programm wurde zuerst als Standalone-Program implementiert. Diese Arbeit zielt darauf ab, die Benutzerfreundlichkeit des Programms zu erweitern, und die Nutzung der entwickelten ML-Modelle, die mit dem ProtDCal-Kodieransatz erstellt wurden, zu erleichtern. Dieses Ziel wurde durch folgende Maßnahmen erreicht: Implementierung einer Web-Plattform, die die Berechnung von ProtDCal-Moleküldeskriptoren für Data-Mining-Studien und die Nutzung der ProtDCal-basierten Werkzeugen für das virtuelle Screening in den ersten Schritten der Peptidentdeckung ermöglicht. Der Webserver namens ProtDCal-Suite bietet Zugang zu den in dieser Arbeit vorgestellten ML-basierten Methoden und zu anderen veröffentlichten Werkzeugen, die die funktionelle Analyse von Proteinen und Peptiden erleichtern. Darüber hinaus enthält die Online-Schnittstelle von ProtDCal eine Zusatzfunktion, mit der die Moleküldeskriptoren nach den Shannon-Entropiewerten der eingegebenen Proteine geordnet und gefiltert werden können. Die entwickelten Werkzeuge bieten die Möglichkeit für das virtuelle Screening von Peptiden in den frühen Phasen des Drug-Designs-Prozesses von peptidbasierten Arzneimitteln. ProtDCal-Suite ist frei zugänglich unter

Table 1. Liste der entwickelten Programme im Rahmen dieser Arbeit.




Eine sequenzbasierte Methode zur Vorhersage von für Protein-Protein- und Protein-Peptid-Interaktionen.


Werkzeuge zur Vorhersage der Protein-Protein- und Protein-Peptid- Bindungsaffinitäten für 3D-Strukturen.


Ein Werkzeug zur Identifizierung antibakterieller Peptide und des Gram-Färbungstyps der Zielbakterien.


Eine Web-Plattform, die (i) die Berechnung von ProtDCal-Moleküldeskriptoren und (ii) die Nutzung der ProtDCal-basierten Methoden für das virtuelle Screening von Peptidebiblioteken ermöglicht.

Die Generalisierungsfähigkeit der trainierten Modelle wurde an mehreren externen Testsets, die experimentelle Daten enthielten, validiert. PPI-Detect wurde verwendet, um Derivate von EPI-X4, einem endogenen Peptidinhibitor des Chemokinrezeptors CXCR4, zu untersuchen. Diese Analyse führte zur Identifizierung eines kürzeren und aktiveren Derivats von EPI-X4. PPI-Affinity wurde bei der Bewertung von EPI-X4-Mutanten, die an CXCR4 gekoppelt sind, und von Peptiden, die Komplexe mit den Serinproteasen HTRA1 und HTRA3 bilden, überprüft. Die Auswertung der PPI-Affinity in den diversen Testsets zeigte, dass die Protein-Protein-BA-Methode zur Spitze der modernsten BA-Methoden gehört. Außerdem war die Protein-Peptid-BA-Methode die erste, die auf Daten trainiert wurde, die aus diversen Protein-Peptid-Strukturen bestanden. ABP-Finder steht an der Spitze der modernsten ML-Methoden für ABPs, insbesondere im Bereich der Genauigkeit. ABP-Finder wurde für das Screening einer großen Peptidbibliothek aus dem Peptidom des menschlichen Urins verwendet. Auf der Basis dieser virtuelle Screening Studie wurde ein neuartiges antibakterielles Peptid experimentell identifiziert.


Citation style:
Could not load citation form.


Use and reproduction:
All rights reserved