Entity Linkage medizinischer Begriffe

Dieses Jahr traten zwei Teams mit der gleichen Aufgabe an, der Verlinkung medizinischer Begriffe (Krankheiten) im Springer Korpus BMC zur Wikipedia bzw. einem textuell beschriebenen Fachvokabular.

 

Das erste Team erstellte einen Klassifier auf Basis von TASTY, unserem Deep Learning Framework für diesen Task. Krankheiten wurden von Wikidata (Sprache EN) bereitgestellt. Die Trainingsdaten wurden durch eine Exact- bzw. Containment-Match Strategie erzeugt. Zusätzliche Matches in Trainingsdaten erfolgten durch Generierung mittels Regelwissen, z.B. für Pluralformen, oder durch Stemming, bzw. auf Basis der Edit Distance.

[PDF]

 

Das zweite Team erzeugte zunächst  eine Menge von Krankheiten aus zahlreichen, variantenreichen Quellen in den Sprachen DE und EN, die über UMLS und ICD10 integriert werden konnten. Damit wurde der TASTY Klassifier für die Klassen (Disease, Treatment, Other) für das BIOES Label Set trainiert. Die ausführliche Fehleranalyse ergab zahlreiche  Erkenntnisse:

  • Stop Words könnten eventuell auch Abkürzungen darstellen und sind schwer darzustellen
  • Recall bei "Inside" kann erhöht werden …
  • Symptome sind schwer zu erkennen,  weil diese in anderen Klassen auch vorkommen. Recall liegt leider noch bei 30%.
  • Wir können durch die variantenreicheren Quellen mehr Entitäten annotieren, haben aber Fehler im Goldstandard
  • Abkürzungen, die auch Artikel (DER, DIE, DAS) sein können
  • Schwächen in TASTY bei KOMMAS, Satzendezeichen, Klammer auf als Krankheit

Weitere Anekdoten: ASBEST wird als Krankheit erkannt, Frau als Symptom, weil viele Krankheiten das deutsche Wort „Frau“ beinhalten und es dadurch häufig im WordVektor auftritt.

[PDF]

 

Die Erkenntnisse dienen der Verbesserung von unserem Entity Recognition und Linkage Framework TASTY in unseren Forschungsprojekten.