Gewählte Publikation:
Knezovic, A.
Extraktion und Standardisierung des Raucherstatus aus freitextlicher-klinischer Routinedokumentation unter Verwendung von Methoden des maschinellen Lernens
Humanmedizin; [ Diplomarbeit ] Medizinische Universität Graz; 2023. pp. 82
[OPEN ACCESS]
FullText
- Autor*innen der Med Uni Graz:
- Betreuer*innen:
-
Kreuzthaler Markus Eduard
-
Schulz Stefan
- Altmetrics:
- Abstract:
- Einleitung. Der Raucherstatus von Patientinnen und Patienten hat einen großen Einfluss auf Pathogenese und Salutogenese. Die richtige Klassifikation des Status ist von großem Wert, sowohl für die Behandlung von Patientinnen und Patienten, als auch die Datenauswertung für retrospektive epidemiologische Studien.
Methoden. Die Arbeit besteht darin, drei Methoden des maschinellen Lernens darin zu vergleichen, klinische Routinedokumentation (Arztbriefe) anhand des Raucherstatus zu klassifizieren. Der verwendete Datensatz wurde von zwei Fachpersonen je einer von 6 Klassen zugewiesen. Mit diesen Daten wurde jeweils eine SVM, ein Feedforward KNN und ein KNN mit einer LSTM-Architektur trainiert und ausgewertet.
Ergebnisse. Die Interrater-Reliabilität der beiden Fachpersonen ergab ein Cohens Kappa von k = 89,97%. Die SVM erreichte sowohl ohne als auch mit SMOTE einen gewichteten F1-Score von 88%. Denselben Wert hat auch das Feedforward KNN erreicht. Das KNN mit einer LSTM-Architektur erreichte als bestes in dieser Arbeit einen gewichteten F1-Score von 92%.
Diskussion. Die Performance des LSTM-Modells ist gut vergleichbar mit verwandten Arbeiten. Präzisierung erfordert noch die Klassifizierung seltener Klassen. Auch besteht ein gewisser Selektionsbias, da die Daten nur von bestimmten Kliniken erhoben wurden. Inhärente Fehlerfortpflanzung in den Arztbriefen und unterschiedliche Notationsgewohnheiten für den Raucherstatus ergeben weitere Unschärfen, welche durch größere und diversere Datensätze minimiert werden können. Eine Verwendung für retrospektive, epidemiologische Studien oder transformerbasierte Modelle könnte bei Verbesserung der Performance in Betracht gezogen werden.