Data processing strategies for LC-HRMS based non-target analysis of organic micropollutants in aqueous matrices
A large variety of organic micropollutants (OMPs) are introduced into the aquatic environment and raise concerns due to their potential impact on ecosystems and human health. The high sensitivity and selectivity of liquid chromatography coupled with high-resolution mass spectrometry (LC-HRMS) enable the screening of a broad range of OMPs at trace concentrations without restriction on predefined analytes. Thus, LC-HRMS based non-target screening (NTS) approaches are of increasing importance in water analysis as they provide the potential to identify formerly unknown compounds and obtain a more comprehensive overview of pollution loads. However, with NTS large amounts of data are recorded within each measurement making sophisticated data processing strategies necessary. The first task of a data processing workflow is a reliable extraction of analyte signals, so-called features, from raw data. After this step complex datasets with thousands of features are obtained. Subsequently, it is essential to reduce and prioritize features that are relevant to the studied research question. This thesis addresses several aspects of data processing strategies, focusing on both the feature extraction step and feature prioritization step based on multivariate chemometric methods.
Nevertheless, high-quality measurement data are essential as a basis for the following data processing. A generic qualitative screening method was developed for an LC-HRMS analytical system. The sensitivity and selectivity to detect a broad range of OMPs at environmentally relevant concentrations and the stability of peak areas and retention times, enabling the comparison of several samples, were confirmed. On this basis, the importance of the feature extraction step was emphasized by first identifying weaknesses in the consistency of results obtained from different programs and secondly presenting an alternative chemometric-based approach. The comparability of feature extraction with four different commonly used open-source and commercial software tools was investigated by examining the overlap of feature lists obtained from processing the same raw data set with MZmine2, enviMass, Compound Discoverer, and XCMS online. Results show a low coherence between different processing tools, as the overlap of features between all four programs was around 10%, and for each software between 40% and 55% of features did not match with any other program. The deviating implementation of filtering steps such as replicate- and blank filter was identified as one source of observed discrepancies. This comparison showed the necessity for higher robustness of data processing tools, a better understanding of algorithms as well as the influence of different parameter settings for each approach. Even though a general standardization of feature extraction is not feasible, a higher awareness of the impact of this step and a transparent and detailed reporting of the entire data processing workflow were encouraged with this work. In addition, an alternative chemometric feature extraction procedure based on regions of interest (ROI) and multivariate curve resolution alternating least squares (MCR-ALS) was employed on an NTS dataset of water samples for the first time. This approach circumvents several error-prone processing steps as there is no need for chromatographic alignment or grouping of multiple features of the same analyte. The approach was employed on samples with different complexity including a target data set of spiked drinking water samples and a NTS dataset obtained from different steps of a waste-water treatment plant and upstream of the receiving river. For all samples, chromatographic peaks and the corresponding mass spectra of OMPs were fully resolved in the presence of highly co-eluting irrelevant and interfering peaks. In the next step, features discriminating between several sample classes of the NTS data set were prioritized based on several multivariate and univariate chemometric methods. By that, from 101 resolved features (MCR-ALS components), 24 were selected and tentatively identified. Subsequently, the benefits of feature prioritization based on complementary unsupervised and supervised pattern recognition methods were further examined.
A comprehensive chemometric-based data processing workflow was employed on a dataset influenced by seasonal and spatial trends to reveal hidden data patterns and to find a subset of discriminating features between samples. Samples were obtained from a passive sampler monitoring campaign of three small streams and one major river over four sampling periods. After employing unsupervised explorative chemometric tools to obtain a general overview of samples, ANOVA simultaneous component analysis (ASCA) was used to disentangle the influence of spatial and seasonal effects as well as their interaction. A target and non-target dataset were compared and showed both a dominant influence of different sampling locations and individual temporal pollution patterns for each river. With the limited set of target analytes, general seasonal pollution patterns were apparent, but NTS data provide a more holistic view of site-specific pollutant loads. With a complementary partial least squares-discriminant analysis (PLS-DA) and Volcano-based prioritization strategy, 223 site and 45 season-specific features were selected and tentatively identified.
Overall, this thesis demonstrates that data processing is crucial in NTS to obtain meaningful results for a comprehensive environmental monitoring. For both feature extraction as well as prioritization remaining challenges and the capabilities of the implementation of advanced multivariate chemometric tools to enable the full exploitation of the potential of NTS were highlighted.
Aufgrund ihrer möglichen Schadwirkung auf Ökosysteme und die menschliche Gesundheit ist es wichtig, den zunehmenden Eintrag von organischen Mikroschadstoffen (engl. OMPs) in die Umwelt zu überwachen. Dazu kann die Flüssigkeitschromatographie gekoppelt mit hochauflösender Massenspektrometrie (engl. LC-HRMS) genutzt werden, welche eine sensitive und selektive Erfassung eines breiten Substanzspektrum ermöglicht, ohne sich auf bekannte OMPs zu beschränken. Daher werden qualitative Verfahren, wie das sogenannte „Non-target Screening“ (NTS) zunehmend in der Wasseranalytik genutzt. Durch NTS können vorher unbekannte OMPs identifiziert und ein umfassenderer Überblick über die Spurenstoffbelastung eines Gewässers ermöglicht werden. Hierbei werden allerdings große Datenmengen generiert, die aufwendige Datenverarbeitungsmethoden nötig machen. Zuerst müssen Analyt-Signale, auch als „Feature“ bezeichnet, aus den Rohdaten extrahiert werden. Dabei entstehen große und komplexe Datensätze mit tausenden Features, die in einem nächsten Schritt reduziert werden müssen, um je nach Forschungsfrage relevante Features auszuwählen. In dieser Doktorarbeit werden verschiedene Aspekte der NTS Datenprozessierung, sowohl mit Fokus auf den Schritt der Featureextraktion als auch der Featurepriorisierung basierend auf multivariaten chemometrischen Verfahren, adressiert. Die Grundlage für die Datenprozessierung sind hochwertige Messdaten. Zu diesem Zweck wurde eine generische LC-HRMS Analysenmethode entwickelt und ihre Sensitivität und Selektivität für ein breites OMP-Spektrum in umweltrelevanten Konzentrationen, sowie die Stabilität von Messsignalen, geprüft. Darauf basierend wurde die Relevanz der Featureextraktion dargelegt, indem Schwächen in der Vergleichbarkeit verschiedener Prozessierungsprogramme aufgezeigt, sowie eine alternative chemometrische Methode präsentiert wurden.
Vier kommerzielle und frei verfügbare Programme zur Featureextraktion (MZmine2, enviMass, Compound Discoverer, and XCMS online) wurden verglichen, indem die gleichen Rohdaten prozessiert und die Überschneidung der erstellten Datensätze überprüft wurde. Hierbei zeigte sich eine geringe Übereinstimmung, da die Überschneidung aller vier Programme bei 10% lag und 40 bis 55% der Feature mit jeweils nur einem Programm detektiert wurden. Als eine mögliche Quelle für diese geringe Übereinstimmung wurde die abweichende Implementierung verschiedener Filterungsschritte (Replikatfilter und Blankabzug) identifiziert. Dieser Vergleich zeigt die Notwendigkeit für robustere Datenextraktionsprogramme, ein besseres Verständnis von Algorithmen und den Einfluss verschiedener Parameter für jedes Programm. Mit dieser Arbeit soll der mögliche Einfluss der Featureextraktion auf das Endergebnis hervorgehoben, und eine transparente und umfassende Veröffentlichung aller Prozessierungsschritte angeregt werden.
In dieser Arbeit wurde ein alternativer Ansatz zur Featureextraktion basierend auf den Methoden „regions of interest“ (ROI) und „multivariate curve resolution alternating least squares“ (MCR-ALS) zum ersten Mal auf NTS Daten von Wasserproben angewandt. Diese Methode umgeht mögliche Fehlerquellen der Datenprozessierung, da keine Anpassung von Retentionszeiten oder Gruppierung von verschiedenen Features, die zu einer Verbindung gehören, nötig ist. Die Methode wurde auf Proben mit verschiedener Komplexität angewendet, darunter dotierte Trinkwasserproben sowie unbekannte Proben entnommen aus verschiedenen Stufen einer Kläranlage sowie des Vorfluters. Chromatographische Peaks und Massenspektren konnten auch in komplexen Proben mit stark überlappenden und störenden Hintergrundsignalen identifiziert werden. In einem nächsten Schritt wurden verschiedene uniund multivariate chemometrische Verfahren angewendet, um probenspezifische Features zu selektieren. Dadurch konnte die Anzahl von insgesamt 101 extrahierten Featuren auf 24 relevante reduziert und diese vorläufig identifiziert werden.
Anschließend wurden die Vorteile einer Featurepriorisierung basierend auf komplementären chemometrischen Methoden weiter untersucht. Hierfür wurde ein umfassender Datenverarbeitungsprozess auf einen von saisonalen und räumlichen Trends beeinflussten Datensatz angewandt, um verborgene Datenstrukturen aufzudecken und probenspezifische Features zur selektieren. Die untersuchten Proben stammten aus einer Überwachungskampagne mit Passivsammlern von drei Kleingewässern und einem größeren Fluss über vier Probenahmezyklen. Nachdem mit explorativen Verfahren ein allgemeiner Überblick über die Datenstruktur erhalten wurde, konnte mittels „ANOVA simultaneous component analysis“ (ASCA) der Einfluss von räumlichen und saisonalen Effekten und deren Wechselwirkung separat untersucht werden. ASCA wurde auf Target und Non-target Messungen der Proben angewandt und verglichen. Auch mit dem limitierten Subtanzspektrum der Target Messung konnten generelle saisonale Muster abgebildet werden, die NTS Daten zeigten jedoch ein umfassenderes Bild der Spurenstoffbelastung für jeden einzelnen Fluss. Nachfolgend wurden anhand einer komplementären Priorisierungsstrategie mittels „partial least squares-discriminant analysis“ (PLS-DA) und univariater Statistik 223 gewässerspezifische und 45 saisonspezifische Spurenstoffe selektiert und vorläufig identifiziert.
Insgesamt konnte in dieser Arbeit gezeigt werden, dass die Datenverarbeitung beim NTS von entscheidender Bedeutung ist, um aussagekräftige Ergebnisse zu erhalten. Herausforderungen der Datenprozessierung sowie die Vorteile der Nutzung multivariater chemometrischer Methoden für die Featureextraktion und Priorisierung wurden aufgezeigt, um in Zukunft das volle Potenzial des NTS ausschöpfen zu können.