Upscaling and automating DNA metabarcoding for high-throughput biodviersity assessments

The loss of biodiversity, encompassing the loss in diversity within and between species, and ecosystems, is rapidly accelerating, and surpassing any previous rate in human history. At the same time, the precise count of recent species on Earth is still uncertain. Invertebrates, particularly insects, which play a vital role in animal biodiversity, are estimated to comprise 5.5 million species. Assessing their overall threat status poses a challenge due to their extensive variety and distribution. Conventional approaches for evaluating insect diversity rely on time-consuming morphological identification, hindered by the limited availability of skilled experts for the vast existing diversity.

As an alternative new DNA-based methods such as DNA metabarcoding have the potential to considerably accelerate the process of identifying species and monitoring species diversity. DNA metabarcoding is a technique for assessing species diversity even in very large and species-rich bulk or environmental samples through the amplification and sequencing of a short DNA fragment of all species present in a sample simultaneously. By comparing the resulting sequences with databases containing reference sequences of known species, the community composition of a sample can be determined quickly and without extensive taxonomic expertise. Nevertheless, the utilization of DNA metabarcoding is currently constrained to smaller-scale studies, typically involving a few hundred samples at maximum. This limitation arises due to the absence of automation and standardization coupled with the substantial expenses associated with the method, ultimately hindering its extensive adoption.

The first chapter of this thesis focuses on improving two important laboratory steps to make them available for large-scale use: the quick and sustainable homogenization of invertebrate bulk samples before DNA extraction, and the scalability of metabarcoding PCR reactions. So far, homogenizing bulk samples has been a laborious and costly step, that was either performed with blenders requiring extensive and time-consuming cleaning or disposable plastics. In the course of this work, a protocol for homogenization and sterilization was developed to speed up sample processing while effectively preventing contamination. The protocol was evaluated using six Malaise trap samples and six invertebrate kick samples, each with seven replicates, demonstrating that 80% of the diversity of seven replicates can be captured with a single replicate. Next to homogenization, upscaling of DNA metabarcoding is hindered by the high cost of PCR reactions. While many scientific publications systematically compared protocols for DNA extraction, primer selection, or different polymerases, the effect of reducing the PCR volume on bulk sample DNA metabarcoding performance is poorly studied. Even though reducing the assay volume can significantly decrease costs, it could also potentially increase the stochasticity of the reaction. However, by amplifying and sequencing a mock community with known species composition and a species-rich Malaise trap insect bulk sample using various reaction volumes, it was demonstrated in the second part of the first chapter that the PCR assay volume can be lowered to as low as 5 µl without significantly impairing the recovered species diversity.

The focus of the second chapter of this thesis is the development of two bioinformatic programs: the APSCALE pipeline for analyzing sequence data and BOLDigger for taxonomic assignment of generated sequences. Due to advances in high-throughput sequencing technology, especially the drop in costs, the number of metabarcoding datasets has increased dramatically. Nevertheless, effectively analyzing large datasets requires the availability of swift and scalable software capable of handling large datasets without compromising performance. Moreover, since more and more biologists as well as end-users from environmental agencies, who are typically less experienced in bioinformatics analysis apply metabarcoding to study biodiversity, user-friendly solutions are needed. These requirements are specifically met by the presented software. Similar to the methodological test on PCR volumes, the performance of the APSCALE pipeline was benchmarked against two popular metabarcoding pipelines (DADA2 and QIIME 2) using two test datasets: one dataset containing a known species composition and the second comprising 256 samples from an extensive Malaise trap monitoring campaign. The results showed, that APSCALE provides comparable results but is more than ten times faster than the other tested programs. The taxonomic assignment of thousands of sequences has been constrained by the limited availability of dedicated software. Consequently, BOLDigger was developed to address this challenge. BOLDigger automatically compares sequences with reference sequences in the Barcode of Life Data Systems (BOLD) database. Additionally, it incorporates various functions to retrieve metadata from the BOLD database and to efficiently sort, categorize, and validate the obtained results.

The third chapter of this thesis presents a metabarcoding protocol that uses a pipetting robot to automate laboratory work. Scalable laboratory protocols and bioinformatic tools are essential prerequisites for the extensive adoption of DNA metabarcoding. Furthermore, DNA metabarcoding possesses a notable practical advantage over traditional morphological identification: it can be automated through the utilization of pipetting robots. This automation significantly enhances throughput and mitigates the risk of human error. The protocol developed in this thesis includes several quality control mechanisms such as using multiple negative controls and replication of all steps of the workflow to prevent or trace possible contaminations. The protocol was validated using two sets of samples, the first one with individual specimens of different species to test for possible contamination, and secondly bulk samples from a stream biomonitoring program to demonstrate its robustness and reproducibility.

In the final part of the thesis, all developed protocols and software were combined and applied in a German-wide Malaise trap monitoring program with 1,815 samples, resulting in the detection of 33,000 insect species nationwide. The total costs per sample, encompassing labor and sequencing expenses, were demonstrated to be less than 50 €, indicating a substantial reduction in costs compared to previous estimates that often exceeded 100 € per sample. The combined effect of cost reduction, improved protocols, advanced bioinformatic tools, a highly automated analysis workflow, and the high plausibility of the generated taxa lists makes large-scale biodiversity monitoring operational. The presented results can make a significant contribution to a comprehensive and taxonomically highly resolved assessment of biodiversity worldwide, thereby facilitating the development of effective conservation measures.

Der Verlust von Biodiversität, der den Verlust der Vielfalt innerhalb und zwischen Arten und Ökosystemen umfasst, beschleunigt sich schneller als jemals zuvor in der Geschichte der Menschheit. Gleichzeitig ist die genaue Anzahl der Arten auf der Erde bislang unbekannt. Invertebraten, insbesondere Insekten, machen einen Großteil der tierischen Biodiversität aus und werden auf etwa 5,5 Millionen Arten geschätzt. Die Bewertung ihres Gefährdungsstatus ist aufgrund dieser großen Vielfalt und Verbreitung eine Herausforderung. Herkömmliche Ansätze zur Erfassung der Insektendiversität basieren auf zeitaufwändiger morphologischer Bestimmung, die durch einen Mangel an qualifizierten Experten, welche diese enorme Vielfalt beschreiben können, zusätzlich erschwert wird.

Als Alternative haben DNA-basierte Methoden wie das DNA-Metabarcoding das Potenzial, den Prozess der Artidentifikation sowie die Erfassung der Artdiversität erheblich zu beschleunigen. DNA-Metabarcoding ist eine Technik zur Erfassung der Artenvielfalt, die sich selbst für sehr große und artenreiche Proben eignet. Beim DNA-Metabarcoding wird eine DNA-Kennsequenz aller Arten einer Probe zeitgleich amplifiziert und sequenziert. Durch den Vergleich der resultierenden Sequenzen mit Referenzdatenbanken kann die Artzusammensetzung einer Probe schnell und ohne umfangreiches taxonomisches Fachwissen bestimmt werden. Dennoch beschränkt sich der Einsatz des DNA-Metabarcodings bisher auf kleinere Studien, welche in der Regel höchstens einige hundert Proben umfassen. Fehlende Standardisierung und Automatisierung, sowie die hohen Kosten der Methode, behindern bislang ihren großflächigen Einsatz.

Das erste Kapitel umfasst die Weiterentwicklung von zwei wichtigen Laborschritten, um sie für den großflächigen Einsatz verfügbar zu machen: die schnelle und nachhaltige Homogenisierung von Mischproben vor der DNA-Extraktion sowie die Skalierbarkeit von PCR-Reaktionen für DNA-Metabarcoding. Bislang war die Homogenisierung von Proben ein arbeitsintensiver und teurer Prozess, der entweder mit Mixern, welche eine umfangreiche und zeitaufwendige Reinigung erfordern, oder aber mit Einwegmaterialien durchgeführt wurde. Im Rahmen dieser Arbeit wurde ein Protokoll zur Homogenisierung und Reinigung entwickelt, um die Verarbeitung der Proben zu beschleunigen und dabei gleichzeitig Kontamination effektiv zu verhindern. Das Protokoll wurde anhand von sechs Proben aus Malaisefallen und sechs Fließgewässer-Kicknet-Proben mit je sieben Replikaten evaluiert. Es konnte gezeigt werden, dass bereits mit einem Replikat 80 % der Diversität von sieben Replikaten erfasst werden kann. Neben der Homogenisierung stellen derzeit die hohen Kosten von PCR-Reaktionen ein Problem für den großflächigen Einsatz von DNA-Metabarcoding dar. Während viele wissenschaftliche Publikationen existieren, in denen Protokolle für die DNA-Extraktion, die Wahl der Primer oder verschiedene Polymerasen systematisch verglichen werden, ist die Auswirkung der Reduzierung des PCR-Volumens auf die Ergebnisse des DNA-Metabarcodings wenig erforscht. Obwohl eine Reduzierung des Volumens die Kosten erheblich senken kann, könnte dies auch potenziell zu einer Zunahme der Stochastizität der Reaktion führen. Durch die Amplifikation und Sequenzierung einer Probe mit bekannter Artzusammensetzung sowie einer artenreichen Malaisefallenprobe mit verschiedenen Reaktionsvolumina konnte gezeigt werden, dass das PCR-Reaktionsvolumen auf bis zu 5 µl reduziert werden kann, ohne die Erfassung der Artenvielfalt signifikant zu beeinträchtigen.

Im zweiten Kapitel dieser Arbeit werden zwei bioinformatische Programme vorgestellt: die APSCALE-Pipeline zur Analyse von Sequenzdaten und BOLDigger zur taxonomischen Zuordnung der generierten Sequenzen. Dank der Fortschritte in der Technologie der Hochdurchsatzsequenzierung, insbesondere der Kostenreduktion, hat die Anzahl der Metabarcoding-Datensätze drastisch zugenommen. Die effektive Analyse großer Datensätze erfordert jedoch schnelle und skalierbare Software, die große Datensätze ohne Leistungseinbußen verarbeiten kann. Darüber hinaus werden benutzerfreundliche Lösungen benötigt, da immer mehr Biologen sowie Endnutzer in Behörden, die in der Regel weniger bioinformatische Expertise haben, das DNA-Metabarcoding einsetzen möchten. Die vorgestellte Software erfüllt diese Anforderungen. Ebenso wie beim methodischen Test zur Reduktion von PCR-Volumina, wurde die Leistung der APSCALE-Pipeline im Vergleich zu zwei viel genutzten Metabarcoding-Pipelines (DADA2 und QIIME 2) anhand von zwei Testdatensätzen bewertet: einem Datensatz einer Probe mit bekannter Artzusammensetzung und einem zweiten Datensatz, der aus 256 Proben aus einem umfangreichen Malaisefallen Programm zur Erfassung von Insektendiversität bestand. Die Ergebnisse zeigten, dass APSCALE vergleichbare Ergebnisse liefert, aber mehr als zehnmal schneller als die verglichenen Programme ist. Die taxonomische Zuordnung tausender Sequenzen wurde bisher durch die fehlende Verfügbarkeit dedizierter Programme erschwert. Als Antwort auf diese Herausforderung, wurde BOLDigger entwickelt. BOLDigger vergleicht Sequenzen automatisch mit Referenzsequenzen in der Barcode of Life Data Systems (BOLD) Datenbank. Darüber hinaus enthält das Programm verschiedene Funktionen zum Abrufen ergänzender Daten aus der BOLD-Datenbank, sowie zur effizienten Sortierung, Kategorisierung und Validierung der erhaltenen Ergebnisse.

Im dritten Kapitel dieser Arbeit wird ein Metabarcoding Protokoll vorgestellt, das einen Pipettierroboter zur Automatisierung der Laborarbeit einsetzt. Skalierbare Laborprotokolle und bioinformatische Tools sind wesentliche Voraussetzungen für die umfangreiche Anwendung von DNA-Metabarcoding. Darüber hinaus bietet DNA-Metabarcoding einen entscheidenden Vorteil gegenüber der traditionellen morphologischen Identifikation: Es kann durch den Einsatz von Pipettierrobotern automatisiert werden. Diese Automatisierung erhöht den Probendurchsatz erheblich und verringert das Risiko menschlicher Fehler. Das vorgestellte Protokoll umfasst mehrere Mechanismen zur Qualitätskontrolle, wie die Verwendung mehrerer Negativkontrollen und die Replikation aller Schritte des Workflows, um mögliche Kontamination zu verhindern oder nachverfolgen zu können. Das Protokoll wurde mit zwei Datensätzen validiert. Dabei wurde ein Datensatz mit Einzelexemplaren verschiedener Arten verwendet, um zu zeigen, dass das Protokoll kontaminationsfrei funktioniert und ein zweiter Datensatz bestehend aus Mischproben aus einem Fließgewässermonitoring, mit dem die Reproduzierbarkeit sowie die Robustheit der Ergebnisse demonstriert wurde.

Im letzten Teil der Arbeit wurden die entwickelten Protokolle sowie die Software kombiniert und in einem deutschlandweiten Malaisefallen Biodiversitätsmonitoring mit 1.815 Proben angewandt. Dabei konnten bundesweit 33.000 Insektenarten erfasst werden. Die Gesamtkosten pro Probe, einschließlich Arbeits- und Sequenzierungskosten, konnten auf weniger als 50 € gesenkt werden, was eine erhebliche Kostenreduktion im Vergleich zu bisherigen Schätzungen bedeutet, die oft über 100 € betrugen. Die Kombination von Kostensenkung, verbesserten Protokollen, fortgeschrittenen bioinformatischen Tools, einem hochautomatisierten Workflow und der hohen Plausibilität der generierten Taxalisten ermöglicht ein großflächiges Monitoring von Biodiversität. Die vorgestellten Ergebnisse können einen wesentlichen Beitrag zur umfassenden und taxonomisch hoch aufgelösten Erfassung der Biodiversität weltweit leisten und somit die Entwicklung wirksamer Schutzmaßnahmen erleichtern.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten