000K utf8 1100 2014$c2014-12-19 1500 ger 2050 urn:nbn:de:hbz:464-20141219-095702-3 3000 Kempken, Sebastian 4000 Bewertung historischer und regionaler Schreibvarianten mit Hilfe von Abstandsmaßen [Kempken, Sebastian] 4000 Evaluation of historical and regional spelling variants by means distance measures [Kempken, Sebastian] 4209 Fourteen different string distance measures are evaluated in this diploma thesis. The benchmarch is taken considering their applicability in the context of historical spelling variants. The most successful methods are further developed and unified to form the flexible distance measure FlexMetric. This approach is enhanced by a method to estimate its parameters using given data, based on an expectation-maximization algorithm proposed by Ristad and Yianilos. 4209 In dieser Diplomarbeit werden vierzehn verschiedene Abstandsmaße evaluiert. Maßstab ist dabei ihre Anwendbarkeit im Kontext historischer Schreibvarianten. Anschließend werden die erfolgreichsten Verfahren zu der flexiblen Abstandsmetrik FlexMetric weiterentwickelt bzw. vereint. Ausgangspunkt der Untersuchungen war die sehr verbreitete Levenshtein-Distanz. Obwohl das Levenshtein-Maß, das auf der Anzahl der Bearbeitungsoperation von Zeichenketten beruht, für sein Alter und seine Einfachheit erstaunlich gute Ergebnisse erzielt, sind spezielle Verfahren erwartungsgemäß effizienter. Die besten Evaluationsresultate erzielt hierbei der von Justin Zobel und Philip Dart entwickelte Editex-Algorithmus. Er vereint die Stärken von auf Bearbeitungsoperationen basierenden Verfahren (z.B. Levenshtein) mit phonetischen Gruppierungsverfahren (z.B. Soundex). Ausgehend davon wird der flexible Container FlexMetric für ein Abstandsmaß entwickelt, welches zusätzlich um Trainierbarkeit erweitert wurde. Mittels der stochastischen String Edit-Distance von Ristad und Yianilos erbringt die FlexMetric abermals eine deutliche Steigerung der Retrievalergebnisse. Eine Zusatzbetrachtung führt in eines von vielen weiterführenden Problemen ein, wie verschiedene Komposita oder ihre Teile mit den neuen Abstandsmaßen verglichen werden können. 4950 https://nbn-resolving.org/urn:nbn:de:hbz:464-20141219-095702-3$xR$3Volltext$534 4961 https://duepublico2.uni-due.de/receive/duepublico_mods_00015753 5010 00 5051 000 5550 Spelling Variants 5550 String Distance Metrics