qAlgorithms: A parameter-free, quality-based data processing routine for non-target-screening with high-resolution mass spectrometry.
Diese Doktorarbeit stellt die aktuellen Herausforderungen und Limitationen in der Datenprozessierung des Non-Target-Screening (NTS) durch die Verwendung chromatographischer Methoden gekoppelt mit hochauflösender Massenspektrometrie in den Fokus. Aufgrund der Komplexität und des Umfangs von NTS-Daten ist die Anwendung von automatisierten Prozessierungsroutine notwendig, wobei etablierte Verfahren aufgrund von Nutzerparametern und unklaren Effekts variierender Datenqualität oft eine geringe Transparenz aufweisen und keinen Aufschluss über die Verlässlichkeit der Ergebnisse geben. Im Rahmen dieser Arbeit werden diese Herausforderungen durch die Entwicklung von drei innovativen Algorithmen zur NTS Datenprozessierung gelöst, die in einer gemeinsamen Toolbox (qAlgorithms) sinnvoll kombiniert und integriert werden. Eine zentrale Rolle der Algorithmen nimmt dabei die Untersuchung ein, mit welcher Unsicherheit die Featureeigenschaften (unter anderem m/z, Retentionszeit und Peakfläche) in den mathematischen Prozessen der Algorithmen geschätzt werden. Diese Information wird dann für die Nutzer:in in Form eines Datenqualitätsscore (DQS) sinnvoll zusammengefasst und an die Featureliste angehangen. Der erste Algorithmus (qCentroids), der im Rahmen dieser Arbeit entwickelt wurde dient zur Zentroidierung hochaufgelöster Massenspektren. Dazu wurde eine log-transformierte Variante der Gauss-Peakfunktion verwendet, die sich dadurch aus-zeichnet, dass diese mittels linearer Algebra lösbar ist. Im Gegensatz zu nichtlinearen Optimierungsverfahren zur Peakmodellierung sind hier keine Einstellung von Initialparametern notwendig sowie kann die Belastbarkeit der Ergebnisse anhand der Standardfehler der Peakkoeffizienten geschätzt werden. Die Generierung von Extracted Ion Chromatogrammen (EICs) aus den vorher berechneten Massenzentroiden wurde innerhalb des zweiten Algorithmus, genannt qBinning, in den Mittelpunkt der Betrachtung gerückt. In qBinning werden m/z-Werte anhand eines statistischen Tests, abgeleitet aus der Ordnungsstatistik, gruppiert, sodass m/z, die aus identischen Ionenpopulation stammen einander zugeordnet werden. Zur Bewertung der Qualität der Bins wurde eine Leistungsmetrik aus der Clusteranalyse, dem Silhouettenkoeffizienten, für diesen spezifischen Prozessierungsschritt angepasst. Der letzte Datenprozessierungsschritt des NTS, welcher im Rahmen dieser Arbeit behandelt wurde, ist die chromatographische Peakdetektion und -charakterisierung innerhalb von EICs (qPeaks). Dazu konnte ein neues Peakmodell zur Beschreibung asymmetrischer chromatographischer Peaks entwickelt werden, welches im Gegensatz zu konventionellen Verfahren mittels linearer Algebra rechenbar ist. Dadurch ist dieses nicht von Initialparametern abhängig und kann in einem Algorithmus zur kombinierten Detektion und Charakterisierung chromatographischer Peaks eingesetzt werden. Dazu wird mit dem neuen Peakmodell über das Chromatogramm gescannt und die Regressionen, die sinnvolle und statistisch signifikante Peaks beschreiben, gespeichert. Eine darauffolgende Gruppierung von nicht differenzierbaren Peaks schließt den Algorithmus ab. Die qAlgorithms Toolbox und alle in dieser Arbeit implementierten Algorithmen sind in quelloffener Form für die wissenschaftliche Gemeinschaft verfügbar, damit eine möglichst breite und nachhaltige Anwendung der hier entwickelten Konzepte möglich wird. Insbesondere das Konzept des DQS zur Bewertung der Verlässlichkeit der erhobenen Prozessierungsergebnisse bietet zukünftig großes Potential zur Priorisierung und Gewichtung von NTS Featuren in der vergleichenden Analyse von Proben unterschiedlicher Herkunft.
This thesis focuses on the current challenges and limitations of data processing in non-target screening (NTS) using chromatographic methods coupled to high-resolution mass spectrometry. Due to the complexity and volume of NTS data, the use of automated processing routines is necessary, but established methods often have low transparency and do not provide information on the reliability of results due to variable user parameter inputs and the unclear effect of varying data quality. This thesis addresses these challenges by developing three innovative algorithms for NTS data processing that are meaningfully combined and integrated into a common toolbox (qAlgorithms). A central role of the algorithms is to investigate the uncertainty with which feature properties (including m/z, retention time, and peak area) are estimated in the mathematical processes of the algorithms. This information is then summarized for the user in the form of a Data Quality Score (DQS) and appended to the generated feature list. The first algorithm developed in this thesis (qCentroids) is used to centroid high-resolution profile mass spectra. It uses a log-transformed variant of the Gaussian peak function, which can be solved using linear algebra. In contrast to non-linear optimization methods for peak modeling, no initial parameters need to be set and the robustness of the results can be estimated from the standard errors of the regression coefficients. The generation of extracted ion chromatograms (EICs) from the previously calculated mass centroids was the focus of the second algorithm, called qBinning. In qBinning, m/z values are grouped using a statistical test derived from order statistics so that m/z originating from identical ion populations are assigned to each other. To evaluate the quality of the bins, a performance metric from cluster analysis, the silhouette criterion, has been adapted for this specific processing step. The last data processing step of the NTS covered in this thesis is the detection and characterization of chromatographic peaks within EICs (qPeaks). For this purpose, a new peak model for the description of asymmetric chromatographic peaks was developed which, in contrast to conventional methods, can be calculated using linear algebra. This means that it is independent of initial parameters and can be used in an algorithm for the combined detection and characterization of chromatographic peaks. The regression is scanned over the chromatogram and the regressions that describe meaningful and statistically significant peaks are stored. A subsequent grouping of non-differentiable peaks completes the algorithm. The qAlgorithms toolbox and all algorithms implemented in this work are available as open source to the scientific community to enable the broad and sustainable application of the concepts developed here. In particular, the concept of the DQS for evaluating the reliability of the collected processing results offers great potential for prioritizing and weighting NTS features in the comparative analysis of samples of different origins in the future.