Einsatzpotenziale des Text Mining im Gesundheitswesen
Nutzergenerierte Inhalte in den sozialen Medien stellen heutzutage einen festen Bestandteil der Gesundheitsinformation dar. Der moderne Patient strebt nach Selbstinformation, Transparenz, partizipiert zunehmend aktiv am Gesundheitswesen und besitzt durch das Internet Zugang zu fast unbeschränkten Informationsmöglichkeiten. Medikamentenbewertungsplattformen bieten Patienten zahlreiche Möglichkeiten, um ihre Meinungen und Erfahrungen über Medikamente auszutauschen. Aufgrund des Umfangs und der Komplexität von nutzergenerierten Webinhalten gestaltet sich die manuelle Auswertung von Medikamentenrezensionen aus dem Internet jedoch schwierig. Es handelt sich bei ihnen maßgeblich um unstrukturierten Text, dessen automatisierte Verarbeitung und Auswertung Gegenstand des Text Mining als besondere Unterart des Data Mining ist. Opinion Mining stellt das Teilgebiet des Text Mining dar, welches sich gezielt mit der Verarbeitung von Gefühlen bzw. Meinungen befasst.
Die vorliegende Arbeit befasst sich mit Methoden und Verfahren des Text Mining bzw. Opinion Mining für die automatisierte Auswertung großer Mengen von Medikamentenrezensionen aus dem Internet. Der Fokus liegt auf der Klassifikation von Polaritäten in Medikamentenrezensionen als Aufgabe der Sentimentanalyse. Im Vordergrund stehen der Vergleich von Methoden und Verfahren, die Evaluierung ihrer Performance in Bezug auf Vorhersagegenauigkeiten und andere Gütemaße sowie die Identifikation von Verbesserungsansätzen.
Zu diesen Zwecken wird ein umfangreicher Analysekorpus von mehr als 165.000 Medikamentenrezensionen aufgebaut und mit Zusatzinformationen angereichert. Dieser wird in Vorverarbeitungs- und Bereinigungsschritten auf die Analyse vorbereitet und anschließend umfassenden Sentimentanalysen unterzogen, unter Einbezug sowohl des maschinellen Lernens als auch des lexikonbasierten Ansatzes des Opinion Mining. Auf Basis der Ergebnisse werden Besonderheiten und Herausforderungen der Textart Medikamentenrezension herausgearbeitet sowie Verbesserungsmöglichkeiten für Sentimentanalysen in Form erster prototypischer Implementierungen umgesetzt. Als konkrete Konzepte werden die Hinzunahme zusätzlicher Features für die maschinellen Lernverfahren, die Generierung eines Domänenlexikons für den lexikonbasierten Ansatz sowie ein Konzept auf Basis von Ontologien und Regelkatalogen für den regelbasierten Ansatz entwickelt.
Nutzenpotenziale der Erkenntnisse liegen bspw. in der Pharmakovigilanz, d. h. dem Monitoring potenziell gefährlicher Nebenwirkungen von Medikamenten. Dabei sind Anwendungsszenarien für Arzneimittelhersteller, Patienten oder Institutionen des Gesundheitswesens denkbar.