Analyse der Fehler in Quasi-Identifikatoren in einem deutschen Schülerregister durch probabilistische Längsschnittverknüpfung

Zur Verbesserung des deutschen Schulsystems setzen sich zurzeit Bund und Länder mit den Fragen zur Ausgestaltung eines bundesweiten Bildungsverlaufsregisters auseinander. Dieses Register soll die Analyse von Bildungsverläufen im Längsschnitt ermöglichen und mit Record-Linkage erstellt werden. Die Verknüpfung soll anhand von Quasi-Identifikatoren (QIDs), wie Name oder Geburtsdatum, erfolgen. Die Implementation des Registers benötigt daher die Spezifikation über die benötigten QIDs. Für diese Spezifikation bedarf es genauer Informationen über die zu erwartende Qualität der Daten in einem Bildungsverlaufsregister sowie einer Abschätzung der erreichbaren Linkage-Qualität und eines potenziellen Linkage-Bias. Diese Arbeit führt hierzu eine Datenqualitätsanalyse sowie eine Verknüpfung des Zentralen Schülerregisters (ZSR) der Stadt Hamburg durch. Das ZSR enthält einen eindeutigen Identifikator, anhand dessen die Ergebnisse überprüft werden (Goldstandard-Datensatz).

Die beste Linkage-Qualität konnte durch probabilistisches Record-Linkage erreicht werden. Es zeigt sich, dass für ein unverzerrtes Verknüpfungsergebnis eine Adressangabe benötigt wird. Hierzu eignen sich Gitterzellen-Koordinaten nach dem INSPIRE-Referenzsystem. Die Staatsangehörigkeit erweist sich hingegen als kein für die Verknüpfung relevantes Merkmal. Trotz der hohen erreichbaren Verknüpfungsrate wird eine nachträgliche manuelle Klassifikation von nicht eindeutigen Record-Paaren notwendig, da ansonsten zahlreiche Bildungsverläufe unvollständig oder falsch abgebildet werden. Diese falschen Verknüpfungen ohne manuelle Klassifikation betreffen besonders Migranten und Schüler von Stadtteilschulen.
The German federal and state administrations are discussing the design of a nationwide educational history register. This register should enable the longitudinal analysis of educational careers. A longitudinal register requires techniques for linking information on the same person over time using quasi-identifiers (QIDs) such as name or date of birth. Therefore, indications about the necessary QIDs are needed to implement the register. For this, further information about the expected data quality in an education history register and the expected linkage quality and linkage bias are required. To this end, this paper conducts a data quality analysis and a record linkage of the pupil register of the City of Hamburg (Zentrales Schülerregister, ZSR) using an administrative unique identifier to validate the linkage.

The best linkage quality was achieved by probabilistic record linkage. Additional information concerning addresses is required to prevent subgroups from differing in their probability of successful linkage (linkage bias). Grid cell coordinates according to the INSPIRE reference system suit this purpose. On the other hand, the linkage results indicate that citizenship is not a relevant feature for the linkage. A manual classification of record pairs is nevertheless necessary. Otherwise, some education histories created by the linkage will be incomplete or incorrect. The results show that migrants and pupils from district schools (a peculiarity in Hamburg) are particularly affected by this linkage bias.
Zur Startseite

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten