000K utf8 1100 2022$c2022-07-28 1500 ger 2050 urn:nbn:de:hbz:465-20220729-161020-7 2051 10.17185/duepublico/76361 3000 Weiand, Severin Vincent 4000 Comparison of Record Linkage Methods Based on a Microsimulation of an Educational Register [Weiand, Severin Vincent] 4000 Vergleich von Record-Linkage Methoden anhand der Mikro-Simulation eines bundesweiten Schülerregisters [Weiand, Severin Vincent] 4060 84 Seiten 4209 Die Verknüpfung von Datensätzen bietet für viele wissenschaftliche Fachgebiete zahlreiche Analysemöglichkeiten. In den meisten Fällen können die Datensätze jedoch nicht anhand von eindeutigen Identifikatoren verknüpft werden, sondern müssen mithilfe von Quasi-Identifikatoren (QID) wie z. B. Name oder Geburtstag verknüpft werden. Aus Datenschutzgründen und aufgrund des Prinzips der Datensparsamkeit muss die Zahl der QIDs für die Nutzung im administrativen Kontext auf ein notwendiges Minimum beschränkt werden. Die Notwendigkeit von QIDs für Record-Linkage kann anhand der zu erwartenden Verbesserung der Linkage-Qualität durch Hinzunahme der QID bestimmt werden. Dies ist das Ziel dieser Arbeit. Dazu werden insgesamt fünf Record-Linkage Methoden verwendet und verglichen. Von besonderer Relevanz ist dabei die Notwendigkeit des Geburtsortes als QID. Die Datengrundlage stellt eine Mikro-Simulation eines bundesweiten Schülerregisters dar. Es wird gezeigt, dass der Geburtsort ein relevantes Merkmal für das Linkage darstellt. Fehlt der Geburtsort, so entsteht insbesondere für Migrantinnen, die während ihrer Bildungslaufbahn heiraten, ein Linkage-Bias. Die besten Ergebnisse liefern Multiple Matchkeys und probabilistisches Record-Linkage mit einem ECM-Algorithmus. 4209 Linking datasets offers numerous analysis possibilities for many scientific disciplines. In most cases, datasets cannot be linked using unique identifiers, but must be linked using quasi-identifiers (QID) such as name or birthday. For data protection reasons and because of the principle of data minimisation, the number of QIDs for use in an administrative context must be minimized. The necessity of QIDs for record linkage can be determined by the expected improvement in linkage quality by inclusion of the QID. This is the aim of this paper. For this purpose, five record linkage methods are used and compared. Of particular relevance is the necessity of the QID place of birth. The data basis is a microsimulation of an educational register. It is shown that the place of birth is a relevant characteristic for the linkage. If place of birth is missing, a linkage bias arises, especially for migrant women who marry during their educational career. Multiple matchkeys and probabilistic record linkage with an ECM algorithm provide the best linkage results. 4950 https://doi.org/10.17185/duepublico/76361$xR$3Volltext$534 4950 https://nbn-resolving.org/urn:nbn:de:hbz:465-20220729-161020-7$xR$3Volltext$534 4961 https://duepublico2.uni-due.de/receive/duepublico_mods_00076361 5051 300 5550 Bildungsregister 5550 data quality 5550 Datenqualität 5550 educational register 5550 microsimulation 5550 Mikro-Simulation 5550 record linkage 5550 Record-Linkage 5550 Schülerregister