PT Unknown AU Kempken, S TI Bewertung historischer und regionaler Schreibvarianten mit Hilfe von Abstandsmaßen PD 12 PY 2014 LA de DE String Distance Metrics; Spelling Variants AB In dieser Diplomarbeit werden vierzehn verschiedene Abstandsmaße evaluiert. Maßstab ist dabei ihre Anwendbarkeit im Kontext historischer Schreibvarianten. Anschließend werden die erfolgreichsten Verfahren zu der flexiblen Abstandsmetrik FlexMetric weiterentwickelt bzw. vereint. Ausgangspunkt der Untersuchungen war die sehr verbreitete Levenshtein-Distanz. Obwohl das Levenshtein-Maß, das auf der Anzahl der Bearbeitungsoperation von Zeichenketten beruht, für sein Alter und seine Einfachheit erstaunlich gute Ergebnisse erzielt, sind spezielle Verfahren erwartungsgemäß effizienter. Die besten Evaluationsresultate erzielt hierbei der von Justin Zobel und Philip Dart entwickelte Editex-Algorithmus. Er vereint die Stärken von auf Bearbeitungsoperationen basierenden Verfahren (z.B. Levenshtein) mit phonetischen Gruppierungsverfahren (z.B. Soundex). Ausgehend davon wird der flexible Container FlexMetric für ein Abstandsmaß entwickelt, welches zusätzlich um Trainierbarkeit erweitert wurde. Mittels der stochastischen String Edit-Distance von Ristad und Yianilos erbringt die FlexMetric abermals eine deutliche Steigerung der Retrievalergebnisse. Eine Zusatzbetrachtung führt in eines von vielen weiterführenden Problemen ein, wie verschiedene Komposita oder ihre Teile mit den neuen Abstandsmaßen verglichen werden können. ER