Skip to main content

Dit is het zesde deel van een serie blogs over 'slimme software'. Hilbert Leijen, technisch directeur bij Infoland, geeft je hierin een uniek kijkje in onze keuken. Vorige delen gemist? Deel 1lees je hier.


Aan het eind van het vorige deel waren we gekomen tot de volgende pijplijn:

 

5c906eb0-d79a-4e8d-8d2c-3ea6b5f09c3b.jpg


Voordat ik dit blog even in de vakantie-stand zet, maak ik graag de pijplijn nog even met jullie af.

Een belangrijke verbeterslag die we nog kunnen toevoegen, is het terugbrengen van woorden naar hun stam (ook wel: lemma). Immers, als in de ene melding “gevallen” voorkomt, en in de andere melding “viel” dan willen we dat de computer begrijpt dat het om dezelfde actie gaat.

Ik zal er in dit blog niet te diep op ingaan, maar voor de geïnteresseerden: Wikipedia – Lemmatisation. Een tipje van de sluier: voor de Nederlandse taal is het bepalen van de stam middels een paar simpele regels geen optie. Van “viel” kom je nooit tot “vallen” door simpele ingrepen als (bijvoorbeeld) de laatste letter te wissen. We maken dus onder de motorkap gebruik van een uitgebreid woordenboek om tot de juiste stam te komen.

 

 

 

11648bae-997f-4654-8f52-1ddf5d36b82d.jpg


Hiermee zijn we gekomen tot een pijplijn die in de praktijk al heel bruikbaar blijkt.
Natuurlijk zijn er nog verdere optimalisaties te verzinnen. Zo zou je bijvoorbeeld sleutelwoorden die elkaars synoniem zijn proberen te herkennen. Zover zijn we nu niet gegaan.
In plaats daarvan hebben we ervoor gekozen, om hetgeen we tot nu toe bereikt hebben naar productie-software te brengen, zodat onze eindgebruikers ervan kunnen gaan profiteren.

Vanaf de eerstvolgende iProva release (5.12) halen we uit iedere melding de relevante sleutelwoorden, en gebruiken die vervolgens om:

 

 

 

  • intelligente zoeksuggesties te geven en de zoekresultaten te verbeteren
  • je nieuwe inzichten te geven (welke thema’s zijn ‘trending’ binnen de incidentmeldingen van mijn organisatie?)

De komende maand gaat dit blog even met zomervakantie.
Daarna neem ik je verder mee in onze uitdaging om in een grote stapel meldingen (nu mét sleutelwoorden) de sterk gelijkende (bijna-)incidenten te detecteren.

 

 

1db1fbae-4ab7-4214-9446-dc4e392092bc.jpg

 

Lees nu ook deel 7: En dan nú die speld uit de hooiberg!
 

 

 

Leuk om te lezen. De lemmatisatie stap wordt veelal overgeslagen bij zoekacties, en het kan een zeer groot verschil opleveren.

De stap naar synonimen te zoeken middels b.v. thesaurus database ontbreekt hier echter nog. De vraag is natuurlijk hoeveel dat gaat opleveren.

In iDocument blijkt het gebruik van synoniemen nog steeds erg belangrijk. Dit lezende, vraag ik mij nu af: werken synoniemen ook in iTask bij het detecteren van gelijkende meldingen?
Ik vermoed dat een keyword extractie en de typefouten correctie "röntgen foto" en "x-thorax". Net als dat een "Accu check", "glucosemeting" en "bst gl" waarschijnlijk niet als hetzelfde worden gezien. (bst gl = bed side testing glucose" -> merknaam / productnaam = Accu / "Chek Performa")
Al deze info staat immers als in Zenya. Dit is ook nog eens instantie specifiek, ik kan me zomaar voorstellen dat andere zorgverleners weer net anders jargon gebruiken.

Hoe dan ook, weer een stuk functionaliteit waar we naar uit kijken in 5.12. Zenya Flow (voorheen iTask) gooit nu vaak een te breed net uit. Begrijpelijk, maar ik vermoed dat veel afhandelaren hier graag verbeter in zien!

Maar voor nu, fijne vakantie!


Bedankt voor je reactie @JesseV.



Het inzetten van een thesaurus zou potentieel voor nog betere resultaten kunnen zorgen. Vereiste is dan wel dat je een hele goede thesaurus hebt, die nauw aansluit op de terminologie die gebruikt wordt in jouw organisatie. Wij zijn hier nog een beetje zoekende. Mocht je tips voor ons hebben, dan hoor ik het gtaag.



Over het detecteren van soortgelijke meldingen:

Op dit moment kijkt iTask bij het zoeken naar soortgelijke meldingen helemaal niet naar vrije tekst - en verklaart het 'te brede net'.

We zijn bezig met een proof-of-concept waarin we zowel de gesloten vragen als ook de keywords uit de vrije tekst gebruiken om sterk gelijkende meldingen te detecteren. Op dit moment gebruiken we daarin dus al wel gelemmatiseerde keywords, en passen we ook spellingscorrectie toe, maar dus nog geen synoniemen of thesaurus. Jouw punt is overigens correct, we zien veel jargon, en dat jargon verschilt per organisatie.

Zelfs al vind je dus een hele goede thesaurus die je als basis kunt gebruiken, dan nog zul je die organisatie-specifiek moeten aanvullen denk ik.

Reageer