Training

Aan de slag met trefwoordextractie uit meldingen

  • 9 September 2019
  • 30 reacties
  • 1354 Bekeken

Reputatie 6
Badge +7

Trefwoordextractie kan je helpen om diepgaander inzicht te krijgen in meldingen, om eerder trends te spotten, en om gerichter te kunnen zoeken naar meldingen.

In dit document leggen we uit wat je moet doen om binnen jouw organisatie aan de slag te gaan met trefwoordextractie binnen Zenya Flow en laten we zien hoe je het kunt toepassen in de praktijk.


30 reacties

Reputatie 6
Badge +7

Zie Innovatieproject "(Incident)meldingen anonimiseren" - update augustus 2022 | Infoland Community voor een update hierover.

Reputatie 6
Badge +7

@hleijen heb je een PB gestuurd.

Reputatie 6
Badge +7

Dank voor je reactie @hleijen 

Ik ga het intern bespreken en kom er bij je op terug. Hopelijk vlot, maar je weet nooit wie hier allemaal iets van wil vinden :wink:

Reputatie 6
Badge +7

Hi @Silvia van Gils 

idealiter zou ik de data binnen Infoland houden en hier in een afgesloten labomgeving testen - maar daarmee zouden we ons erg beperken in de systemen die we uberhaupt kunnen onderzoeken.

Om te kunnen evalueren hoe bestaande algoritmen in de markt presteren, zullen we die teksten vaak toch wel door een online testomgeving van een leverancier moeten halen of gegevens moeten aanleveren aan die leveranciers - met de afspraak dat ze die na de test weer vernietigen.
In geen van die gevallen wordt de data eigendom van die leverancier.

Wat we zouden doen, is sec de stukjes tekst aanleveren zónder enige context. De leverancier in kwestie ziet dus niet van welke organisatie het afkomstig is. Mits de tekst zelf ook goed gepseudonimiseerd is, is er dus niet mee te achterhalen waar, wanneer of bij wie het is voorgevallen - alleen dát een dergelijk incident of bijna-incident zich ooit ergens heeft voorgedaan.

Reputatie 6
Badge +7

Hoi @hleijen 

Ik wil wel kijken of we jullie hierbij kunnen helpen. Dat moet ik intern natuurlijk even bespreken.

Kunnen jullie aangeven / hebben jullie vastgelegd wat jullie met deze data doen? Het gaatnamelijk toch om beschrijvingen van incidenten en calamiteiten en ondanks dat we deze pseudonimiseren willen we die natuurlijk niet graag zomaar buiten de poort hebben liggen.

Ik denk dat dit namelijk de eerste vraag is die ik krijg als ik aangeef dat ik jullie wat aan wil leveren :-)

Blijft de data bij jullie of is hij straks ook eigendom van de bedrijven met wie jullie in gesprek zijn?

Als je hier wat over aan kan geven en laat weten hoe we de informatie het beste kunnen aanleveren ga ik er intern mee aan de slag.

Reputatie 6
Badge +7

@Ron Hogeland , @Michel Pot , @Silvia van Gils   excuses, door omstandigheden ben ik een tijd lang minder betrokken geweest bij dit onderwerp, en is reactie uitgebleven.

Het goede nieuws is dat het inmiddels weer terug op de radar is.
In de recente paneldiscussie over Zenya FLOW komt de behoefte om meer inzicht te verkrijgen uit informatie die in de vorm van vrije tekst in meldingen is ingevoerd, opnieuw naar boven.
We gaan hier in doorontwikkeling dan ook zeker weer aandacht aan geven.

Daarbij liggen op dit moment beide eerder genoemde routes nog open:

  • verbeteren van de AI voor het automatisch herkennen en anonimiseren/schrappen van persoonsnamen en andere persoonsgegevens uit de teksten
  • kunnen uitsluiten van velden waarvan je weet dat ze per definitie persoonsgegevens bevatten


Oproep

Voor de eerste route (verbeteren van de AI) geldt dat we momenteel onderzoeken welke technologische progressie er is geweest sinds 2019. We spreken hierover met bedrijven die gespecialiseerd zijn in (geautomatiseerd) anonimiseren.
Om goed te kunnen beoordelen hoe goed die techniek écht zijn werk doet, hebben we behoefte aan voorbeelden uit de praktijk. Voorbeelden van teksten uit het veld ‘beschrijving incident’ - waarbij de originele schrijfstijl (dus missende leestekens, afkortingen etc.) nog aanwezig is.
Ook de persoonsgegevens moeten in die teksten aanwezig blijven - want doel is immers om te bekijken of de techniek ze kan opsporen - maar deze persoonsgegevens moeten uiteraard gepseudonimiseerd worden alvorens ze met ons te delen.

Alle beetjes helpen; voor een eerste inschatting zijn we al geholpen met een klein aantal voorbeelden uit jullie praktijk!

Reputatie 4
Badge +7

Dank je wel voor je reactie @hleijen. Mooi dat jullie de beer al aan hadden zien komen :-)

Ik begrijp dat namen in de beschrijving lastig is en dat is ook wel een verantwoordelijkheid van de ons als instelling en onze invullers. Patiëntnummers en personeelsnummers zijn inderdaad numerieke velden. We halen op basis van het patiëntnummer wel met een HL7-koppeling naam, voorletter etc. van de patiënt op en dat worden wel tekstvelden.

Ik ga jouw informatie en het document met toelichting intern meenemen als we deze optie gaan bespreken.
Hopelijk krijgen we de beer in zijn hok, want het is een veelbelovende functionaliteit!

Ik ben erg benieuwd naar de stand van zaken, is de beer in zijn hok? Wat heeft geholpen om een positieve beoordeling van de privacy officer te krijgen. Of, als dat niet is gelukt, welke hobbel moet nog genomen worden?

Reputatie 6
Badge +7

Hi @Ron Hogeland ,

ik moet je teleurstellen in die zin dat we er nú niet mee bezig zijn. We hebben even afgewacht tot er wat meer organisaties mee aan de slag zouden gaan, en hebben ondertussen hard gewerkt aan andere mooie nieuwe ontwikkelingen :-)

 

Uit de feedback van diverse organisaties is inmiddels wel duidelijk dat het opduiken van persoonsnamen in de visualisaties  wel echt een reeel probleem is, wat aan een oplossing behoeft. Het kunnen uitsluiten van bepaalde velden is niet de ultieme oplossing denk ik, maar kan zou wel een bijdrage kunnen leveren.

Ik probeer later deze maand hier terug te komen met een update hierover.

Reputatie 1
Badge

@hleijen 

Zoals eerder in dit topic aangegeven is het uitsluiten van specifieke velden momenteel (nog) niet mogelijk.

Je geeft aan dat het (nog) niet mogelijk is om specifieke velden uit te sluiten. Kan ik hieruit opmaken dat jullie hier wel mee bezig zijn, en zo ja wanneer is dat dan beschikbaar?

Ron Hogeland

Reputatie 5
Badge +8

Prima @hleijen ga ik dat doen. Ik ging ervan uit dat 'trefwoorden' gehaald worden uit open tekstvelden. In het meldingstype VIM zitten een aantal tekstvelden, dus dan zou 'trefwoordextractie' gewoon moeten werken lijkt me. Ik ga de servicedesk even bellen. Dank voor je antwoord.

Reputatie 6
Badge +7

Hoi @Berber Werkman , als ik het zo lees dan lijkt het alsof alleen de oudere meldingen (tot eind 2018) van trefwoorden zijn voorzien, en dat de verwerking daarna gestopt is.

Je kunt het beste even contact opnemen met onze Servicedesk zodat zij op database-niveau kunnen controleren of er bij de recentere meldingen überhaupt trefwoorden aanwezig zijn. 

Reputatie 5
Badge +8

Ik heb wat vragen over de trefwoordextractie. Mogelijk dat ik dingen over het hoofd zie, maar hoop dat iemand mij verder kan helpen.

 

Ik loop tegen twee dingen aan: 

  • als ik een diagram top trefwoorden maak van alle VIM-meldingen (gebaseerd op een publiek filter waarin alle VIM-meldingen staan), krijg ik een mooie woordwolk. Echter heb ik ook een publiek filter gebaseerd op VIM-meldingen 2020. Als ik dat publieke filter gebruik in een nieuw trefwoord-diagram, krijg ik de melding dat er geen opvallende trefwoorden zijn. Dit filter bevat echter 302 meldingen, dus ik kan me niet voorstellen dat hier geen opvallende trefwoorden uit zijn te extraheren. Als ik naar meldingen ga en het publieke filter daar open, zie ik wel alle 302 meldingen. Doe ik iets fout?
  • daarnaast heb ik een diagram gemaakt met trefwoordtrends. Dit diagram laat echter het jaar 2019 en 2020 niet zien en stopt eind 2018. Kan het diagram maar een x aantal jaren laten zien? ik kan niet doorscrollen naar andere jaartallen volgens mij. Onze meldingen beginnen in 2010, maar volgens het trefwoord-trenddiagram stop dit eind 2018. Het publieke filter laat echter meldingen zien tot en met vandaag, dus ook de meldingen van 2019 en 2020.

Graag jullie hulp waar ik iets fout doe in het inrichten van de diagrammen of wat ik anders kan doen zodat ik wel mooie diagrammen krijg rondom trefwoordextractie.

 

Alvast bedankt voor jullie hulp!

Reputatie 6
Badge +7

@Hoogeboom-01  dat is een sluitende verklaring inderdaad.

Zoals eerder in dit topic aangegeven is het uitsluiten van specifieke velden momenteel (nog) niet mogelijk.
 

Reputatie 1
Badge +2

@hleijen Het lek is boven! Wij werken met groepsaccounts en zodoende gebruiken wij het systeemveld "naam van de melder” niet. Ons veld "naam van melder" is dus een gewoon tekst veld en daarom zien wij de namen van de melders in de trefwoorden lijst.

Zou fijn zijn om velden te kunnen uitsluiten van de extractie; is dit mogelijk?

 

Reputatie 6
Badge +7

@Hoogeboom-01 Ik heb het even nagevraagd hier. Dat veld zou eigenlijk uitgesloten moeten worden - want het bevat per definitie persoonsgegevens - maar dat gebeurt nu blijkbaar niet.

Ik heb er een bugmelding voor aangemaakt, zodat het in een van de komende iProva-updates opgelost wordt.

Reputatie 1
Badge +2

@hleijen  De namen staan alleen in het veld “Naam van de melder”.

Reputatie 6
Badge +7

@Hoogeboom-01, weet je of die namen enkel voorkwamen in het systeemveld “Naam van de melder”, of kwamen ze ook voor in andere tekstvelden op het formulier?

Voor het laatste geval geldt dat je op dit moment niet expliciet velden kunt uitsluiten.
Wel kun je - met ingang van iProva 5.13 die deze week uitkomt - ongewenste trefwoorden onderdrukken.

 

Mocht de naam van de melder alleen maar voorkomen in het systeemveld “Naam van de melder” en verder nergens, geef het dan even aan - want dat veld zou niet meegenomen moeten worden. 

Reputatie 1
Badge +2

Beste,

Wellicht lees ik er over heen. Maar ik zie in de trefwoorden dus ook namen van de invullers van een formulier. Is een dergelijk veld ook uit te sluiten? Hoe?

Reputatie 6
Badge +7

@JopHelleman :
iProva voert de trefwoordextractie uit voor alle meldingen; je kan dit niet instellen per meldingstype.
In de rapportage (interactieve diagrammen) bepaal je zelf welk filter je toepast, dus daar kan je prima informatie beperken tot een specifiek meldingstype als je dat wilt.

Op dit moment wordt trefwoordextractie toegepast op:

  • alle velden op het meldformulier van een melding, van de veldtypes Tekst en Tekst met opmaak.
  • Tekst die wordt ingevuld in het "anders, namelijk" tekstveld bij lijstvelden waarbij de "anders, namelijk" optie wordt aangeboden


De trefwoordextractie wordt gestart zodra de melding wordt verzonden. Op dat moment kunnen er dus in potentie nog persoonsgegevens in zitten. Dat wil nog niet zeggen dat die persoonsgegevens ook daadwerkelijk zichtbaar worden in de rapportage - maar het kan inderdaad wel gebeuren. In iProva 5.13 geven we je daarom nog wat aanvullende tools om dergelijke ‘ongewenste’ keywords te kunnen onderdrukken. 

 

Het antwoord op de laatste vraag volgt uit het bovenstaande; nee, de velden op het coordinatorformulier worden vooralsnog niet meegenomen.

Reputatie 2
Badge +4

Misschien over het hoofd gezien in alle documentatie, maar is het mogelijk aan te geven welke meldingstypen worden betrokken bij de keyword extractie? Ik zie wel dat je kan kiezen bij de rapportage op welke meldingsset de rapportage is gebaseerd…

En wat is het moment dat een melding wordt aangeboden voor de keyword extractie? Het zou mooi zijn als dat in te regelen is op de status “Afgehandeld”. Want dan zijn bij ons eventuele namen in de vrije tekst velden verwijderd conform beleid. Of wordt alleen de originele melding opgenomen?

En tot slot: worden ook het coördinatorenformulier meegenomen bij de extractie?

Reputatie 4

Ik had gehoopt inmiddels wat screenshots te kunnen delen, helaas zijn we nog niet zo ver.

 

Wat ik wel kan aangeven zijn de mogelijkheden die we in eerste instantie gaan bieden. Het zal mogelijk zijn om voor een trefwoord aan te geven of deze genegeerd of vervangen moet worden. Uiteraard kan bij het vervangen dan ook worden gekozen door welk ander (of nieuw) trefwoord het vervangen moet worden. 

Ook wordt het mogelijk om aan te geven waarom een bepaald trefwoord niet goed is. Redenen kunnen zijn dat het een typefout is, geen specifieke reden of persoonlijke data. We voorzien dat wanneer de reden een typefout is meestal voor vervanging wordt gekozen en bij persoonlijke data voor negeren. Door deze opties open te houden bieden we jullie meer vrijheid en kunnen we ook achteraf makkelijker staven dat deze aannames kloppen.

 

Zodra ik hier screenshots van kan laten zien zal ik ze uiteraard delen!

Reputatie 6
Badge +7

@Gijs Prins  misschien kan jij hier al een sneak preview geven van waar jouw team mee bezig is?

Reputatie 3
Badge +3

@hleijen Dat zou een goede uitbreiding zijn. Nu zie je dat er vaak wel 6 tot 8 verschillende trefwoorden worden gebruikt (inclusief foutief geschreven) voor hetzelfde begrip. Ik zie vol verwachting uit naar iProva 5.13 :-)

 

Reputatie 6
Badge +7

Goede suggesties @Erik Balduk. Er komen zeker nog de nodige verbeteringen aan in komende releases. Allereerst werken we aan de mogelijkheid om de trefwoorden die je ziet te optimaliseren (ongewenste trefwoorden onderdrukken, trefwoorden die het zelfde betekenen samenvoegen). 
Onder voorbehoud in iProva 5.13.

Daarna gaan we zeker verder met het verrijken van de functionaliteit. Input zoals deze is daarbij zeer welkom!

Reputatie 3
Badge +3

@hleijen: Binnen Gelre ziekenhuizen hebben we inmiddels trefwoordextractie aangezet.

De dynamische diagrammen die je kunt maken (Veel voorkomende trefwoorden en Opvallende trefwoorden) zien er erg goed uit en bieden veel mogelijkheden voor extra analyse. Graag zouden we nog wat verbeteringen zien:

  1. Een zoekveld in de linker kolom van Veel voorkomende trefwoorden. Op die manier hoef je niet de vaak lange lijst af te lopen maar kun je snel gericht zoeken.
  2. De mogelijkheid om te kunnen filteren (bijvoorbeeld op organisatie-eenheid) binnen het publieke filter dat gebruikt wordt voor het diagram. Je kunt wel sorteren op de verschillende velden maar niet filteren. 

Reageer


Algemene voorwaarden | Privacyverklaring