@PhdThesis{duepublico_mods_00015753, author = {Kempken, Sebastian}, title = {Bewertung historischer und regionaler Schreibvarianten mit Hilfe von Abstandsma{\ss}en}, year = {2014}, month = {Dec}, day = {19}, keywords = {String Distance Metrics; Spelling Variants}, abstract = {In dieser Diplomarbeit werden vierzehn verschiedene Abstandsma{\ss}e evaluiert. Ma{\ss}stab ist dabei ihre Anwendbarkeit im Kontext historischer Schreibvarianten. Anschlie{\ss}end werden die erfolgreichsten Verfahren zu der flexiblen Abstandsmetrik FlexMetric weiterentwickelt bzw. vereint. Ausgangspunkt der Untersuchungen war die sehr verbreitete Levenshtein-Distanz. Obwohl das Levenshtein-Ma{\ss}, das auf der Anzahl der Bearbeitungsoperation von Zeichenketten beruht, f{\"u}r sein Alter und seine Einfachheit erstaunlich gute Ergebnisse erzielt, sind spezielle Verfahren erwartungsgem{\"a}{\ss} effizienter. Die besten Evaluationsresultate erzielt hierbei der von Justin Zobel und Philip Dart entwickelte Editex-Algorithmus. Er vereint die St{\"a}rken von auf Bearbeitungsoperationen basierenden Verfahren (z.B. Levenshtein) mit phonetischen Gruppierungsverfahren (z.B. Soundex). Ausgehend davon wird der flexible Container FlexMetric f{\"u}r ein Abstandsma{\ss} entwickelt, welches zus{\"a}tzlich um Trainierbarkeit erweitert wurde. Mittels der stochastischen String Edit-Distance von Ristad und Yianilos erbringt die FlexMetric abermals eine deutliche Steigerung der Retrievalergebnisse. Eine Zusatzbetrachtung f{\"u}hrt in eines von vielen weiterf{\"u}hrenden Problemen ein, wie verschiedene Komposita oder ihre Teile mit den neuen Abstandsma{\ss}en verglichen werden k{\"o}nnen.}, url = {https://duepublico2.uni-due.de/receive/duepublico_mods_00015753}, file = {:https://duepublico2.uni-due.de/servlets/MCRFileNodeServlet/duepublico_derivate_00017252/BewertungSchreibvarianten.pdf:PDF}, language = {de} }