Weiand, Severin Vincent

Comparison of Record Linkage Methods Based on a Microsimulation of an Educational Register

Vergleich von Record-Linkage Methoden anhand der Mikro-Simulation eines bundesweiten Schülerregisters

Die Verknüpfung von Datensätzen bietet für viele wissenschaftliche Fachgebiete zahlreiche Analysemöglichkeiten. In den meisten Fällen können die Datensätze jedoch nicht anhand von eindeutigen Identifikatoren verknüpft werden, sondern müssen mithilfe von Quasi-Identifikatoren (QID) wie z. B. Name oder Geburtstag verknüpft werden. Aus Datenschutzgründen und aufgrund des Prinzips der Datensparsamkeit muss die Zahl der QIDs für die Nutzung im administrativen Kontext auf ein notwendiges Minimum beschränkt werden. Die Notwendigkeit von QIDs für Record-Linkage kann anhand der zu erwartenden Verbesserung der Linkage-Qualität durch Hinzunahme der QID bestimmt werden. Dies ist das Ziel dieser Arbeit. Dazu werden insgesamt fünf Record-Linkage Methoden verwendet und verglichen. Von besonderer Relevanz ist dabei die Notwendigkeit des Geburtsortes als QID. Die Datengrundlage stellt eine Mikro-Simulation eines bundesweiten Schülerregisters dar. Es wird gezeigt, dass der Geburtsort ein relevantes Merkmal für das Linkage darstellt. Fehlt der Geburtsort, so entsteht insbesondere für Migrantinnen, die während ihrer Bildungslaufbahn heiraten, ein Linkage-Bias. Die besten Ergebnisse liefern Multiple Matchkeys und probabilistisches Record-Linkage mit einem ECM-Algorithmus.

Linking datasets offers numerous analysis possibilities for many scientific disciplines. In most cases, datasets cannot be linked using unique identifiers, but must be linked using quasi-identifiers (QID) such as name or birthday. For data protection reasons and because of the principle of data minimisation, the number of QIDs for use in an administrative context must be minimized. The necessity of QIDs for record linkage can be determined by the expected improvement in linkage quality by inclusion of the QID. This is the aim of this paper. For this purpose, five record linkage methods are used and compared. Of particular relevance is the necessity of the QID place of birth. The data basis is a microsimulation of an educational register. It is shown that the place of birth is a relevant characteristic for the linkage. If place of birth is missing, a linkage bias arises, especially for migrant women who marry during their educational career. Multiple matchkeys and probabilistic record linkage with an ECM algorithm provide the best linkage results.