000K  utf8
1100  2014$c2014-12-19
1500  ger
2050  urn:nbn:de:hbz:464-20141219-095702-3
3000  Kempken, Sebastian
4000  Bewertung historischer und regionaler Schreibvarianten mit Hilfe von Abstandsmaßen  [Kempken, Sebastian]
4000  Evaluation of historical and regional spelling variants by means distance measures  [Kempken, Sebastian]
4209  Fourteen different string distance measures are evaluated in this diploma thesis. The benchmarch is taken considering their applicability in the context of historical spelling variants. The most successful methods are further developed and unified to form the flexible distance measure FlexMetric. This approach is enhanced by a method to estimate its parameters using given data, based on an expectation-maximization algorithm proposed by Ristad and Yianilos.
4209  In dieser Diplomarbeit werden vierzehn verschiedene Abstandsmaße evaluiert. Maßstab ist dabei ihre Anwendbarkeit im Kontext historischer Schreibvarianten. Anschließend werden die erfolgreichsten Verfahren zu der flexiblen Abstandsmetrik FlexMetric weiterentwickelt bzw. vereint. Ausgangspunkt der Untersuchungen war die sehr verbreitete Levenshtein-Distanz. Obwohl das Levenshtein-Maß, das auf der Anzahl der Bearbeitungsoperation von Zeichenketten beruht, für sein Alter und seine Einfachheit erstaunlich gute Ergebnisse erzielt, sind spezielle Verfahren erwartungsgemäß effizienter. Die besten Evaluationsresultate erzielt hierbei der von Justin Zobel und Philip Dart entwickelte Editex-Algorithmus. Er vereint die Stärken von auf Bearbeitungsoperationen basierenden Verfahren (z.B. Levenshtein) mit phonetischen Gruppierungsverfahren (z.B. Soundex). Ausgehend davon wird der flexible Container FlexMetric für ein Abstandsmaß entwickelt, welches zusätzlich um Trainierbarkeit erweitert wurde. Mittels der stochastischen String Edit-Distance von Ristad und Yianilos erbringt die FlexMetric abermals eine deutliche Steigerung der Retrievalergebnisse. Eine Zusatzbetrachtung führt in eines von vielen weiterführenden Problemen ein, wie verschiedene Komposita oder ihre Teile mit den neuen Abstandsmaßen verglichen werden können.
4950  https://nbn-resolving.org/urn:nbn:de:hbz:464-20141219-095702-3$xR$3Volltext$534
4961  https://duepublico2.uni-due.de/receive/duepublico_mods_00015753
5010  00
5051  000
5550  Spelling Variants
5550  String Distance Metrics