Medizinische Universität Graz - Research portal

Logo MUG Resarch Portal

Selected Publication:

Potjan, L.
Alkoholstatusextraktion und Standardisierung mit Hilfe maschineller Lernverfahren aus freitextlich-klinischer Routinedokumentation
Humanmedizin; [ Diplomarbeit ] Medizinische Universität Graz; 2023. pp. 58 [OPEN ACCESS]
FullText

 

Authors Med Uni Graz:
Advisor:
Kreuzthaler Markus Eduard
Schulz Stefan
Altmetrics:

Abstract:
Das geschriebene Wort nimmt im medizinischen Sektor besonders in der klinischen Dokumentation einen hohen Stellenwert ein. Dokumentieren dient dem Zusammentragen, Erschließen und Nutzbarmachen von Informationen. Es erfüllt im klinischen Alltag verschiedenste Aufgaben, und hat im Gesundheitssektor zur Akkumulation gigantischer Datenmengen geführt (auch Big Data genannt). Diese liegen größtenteils unstrukturiert in Form von Freitexten vor, und lassen sich somit schwer von traditionellen, computergestützten Verfahren auswerten. Clinical Natural Language Processing (cNLP) als Schnittpunkt der Fachgebiete Künstliche Intelligenz und Computerlinguistik versucht an dieser Stelle mittels maschineller Lernverfahren den Informationsgehalt dieser Datenberge zu erschließen. Ziel dieser Diplomarbeit ist es, Unterschiede zwischen einer manuellen und einer cNLP-basierten Analyse, sowie Klassifikation von unstrukturierten Daten aufzuzeigen bzw. zu bewerten. Hierfür werden Patientinnen und Patienten hinsichtlich ihres dokumentierten Alkoholkonsums unterschieden. Der Alkoholkonsum als Klassenvariable wurde aufgrund seiner standardisierten Erhebung während der Anamnese und seinen assoziierten gesundheitlichen Risiken gewählt. Ein initialer Datensatz, bestehend aus 47.600 de-identifizierten Arztbriefen der Fachbereiche Kardiologie, Dermatologie und Onkologie eines österreichischen Krankenhauses, wird hierfür zunächst in 1429 Arztbriefausschnitte (Snippets) umgewandelt. Hierbei kommen simple, regelbasierte NLP-Verfahren, wie beispielsweise die Schlüsselwortsuche, zum Einsatz. Anschließend wird mittels passender Veröffentlichung und bestehender Kodiersysteme für Alkoholkonsum (DSM 5, ICD-10, SNOMED CT) ein eigenes Einteilungsschema erstellt. Es folgt die, dem erstellten Schema entsprechende, manuelle Klassifizierung der Snippets durch den Autor. 20% der Snippets werden erneut durch eine zweite wissenschaftliche Mitarbeiterin annotiert. Ein Cohen’s Kappa von 0,9 zeigt eine gute Übereinstimmung der beiden Annotationsdurchgänge. In weiterer Folge werden zwei maschinelle Lernverfahren aus dem Bereich des cNLP miteinander verglichen: fastText (basierend auf einem neuronalen Netzwerk) und Support Vector Machines (SVM). Des Weiteren wurde bei fastText untersucht, welchen Einfluss ein vorab trainiertes Sprachmodell auf die Qualität der Klassifikationsaufgabe nimmt. Die parameteroptimierte SVM erzielt einen gemittelten Makro-F1-Score von 0,83 auf den Testdatensatz. Im Gegensatz dazu erreicht fastText bei Verwendung eines vorab trainierten Sprachmodelles einen gemittelten Makro-F1-Score von 0,78 und ohne Verwendung eines Sprachmodells einen gemittelten Makro-F1-Score von 0,80. Diese Werte entsprechen Ergebnissen von Veröffentlichungen mit ähnlicher Forschungsfrage, wobei das hier untersuchte Verfahren mit technisch weniger Aufwand auskommt als bereits untersuchte Methoden.

© Med Uni GrazImprint