Verknüpfung von Bildungsdaten in einem Bildungsregister mittels Record-Linkage auf Basis von Personenmerkmalen

Die Expertise beschreibt die Probleme beim Record-Linkage personenbezogener Daten für ein Bildungsregister in Deutschland und stellt Verfahren zur Lösung dieser Probleme vor. Der Kern der Expertise ist eine Mikrosimulation typischer Bildungswege und deren Spuren in Registern sowie einer systematischen Untersuchung unterschiedlicher Annahmen über die Fehlerquoten. Basierend auf der Simulation kann festgestellt werden:

  1. Je schlechter die Datenqualität und je mehr Fälle das Register im Laufe der Zeit umfassen wird, desto schlechter werden die Linkage-Ergebnisse.
  2. Dies gilt in besonderem Maße für Migranten.
  3. Hashing phonetischer Codes erzielt unakzeptable Ergebnisse.
  4. Das beste Verfahren ist ein exakter Match gefolgt von einem Linkage mit ECM.
  5. PPRL-Verfahren erzielen schlechtere Ergebnisse als ECM.
  6. Das Merkmal Geburtsort ist sowohl für Precision als auch für Recall entscheidend.
  7. Ein zentrales Identitätsmanagement mit einer Vertrauensstelle, bei der Zweifelsfälle im Klartext manuell abgeglichen werden, ist für eine optimale Qualität eines Registers unverzichtbar.
  8. Unter operativen Bedingungen wie in der amtlichen Statistik kann aus technischer Sicht ein Bildungsregister auch mit dem vollen Kranz der Quasi-Identifikatoren konform mit der DSGVO betrieben werden.

This report describes the problems of record linkage of personal data for an education register in Germany and presents procedures to solve these problems. To explore the impact of errors in identifiers, we simulated typical educational pathways and their traces in registers. Based on the results, it can be stated:

  1. The worse the data quality and the more cases the register will include over time, the worse the linkage results will be.
  2. This is especially true for migrants.
  3. Hashing phonetic codes produces unacceptable results.
  4. The best procedure is an exact match followed by linkage with ECM.
  5. PPRL procedures achieve worse results than ECM.
  6. The feature birthplace is crucial for precision and recall.
  7. A central identity management with a trust centre, where doubtful cases are manually matched in plain text, is indispensable for the optimal quality of a registry.
  8. Under operational conditions such as in official statistics, an educational register can be operated in compliance with the GDPR.
Zur Startseite

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung:
Alle Rechte vorbehalten