Dit is het zesde deel van een serie blogs over 'slimme software'. Hilbert Leijen, technisch directeur bij Infoland, geeft je hierin een uniek kijkje in onze keuken. Vorige delen gemist? Deel 1lees je hier.
Aan het eind van het vorige deel waren we gekomen tot de volgende pijplijn:
Voordat ik dit blog even in de vakantie-stand zet, maak ik graag de pijplijn nog even met jullie af.
Een belangrijke verbeterslag die we nog kunnen toevoegen, is het terugbrengen van woorden naar hun stam (ook wel: lemma). Immers, als in de ene melding “gevallen” voorkomt, en in de andere melding “viel” dan willen we dat de computer begrijpt dat het om dezelfde actie gaat.
Ik zal er in dit blog niet te diep op ingaan, maar voor de geïnteresseerden: Wikipedia – Lemmatisation. Een tipje van de sluier: voor de Nederlandse taal is het bepalen van de stam middels een paar simpele regels geen optie. Van “viel” kom je nooit tot “vallen” door simpele ingrepen als (bijvoorbeeld) de laatste letter te wissen. We maken dus onder de motorkap gebruik van een uitgebreid woordenboek om tot de juiste stam te komen.
Hiermee zijn we gekomen tot een pijplijn die in de praktijk al heel bruikbaar blijkt.
Natuurlijk zijn er nog verdere optimalisaties te verzinnen. Zo zou je bijvoorbeeld sleutelwoorden die elkaars synoniem zijn proberen te herkennen. Zover zijn we nu niet gegaan.
In plaats daarvan hebben we ervoor gekozen, om hetgeen we tot nu toe bereikt hebben naar productie-software te brengen, zodat onze eindgebruikers ervan kunnen gaan profiteren.
Vanaf de eerstvolgende iProva release (5.12) halen we uit iedere melding de relevante sleutelwoorden, en gebruiken die vervolgens om:
- intelligente zoeksuggesties te geven en de zoekresultaten te verbeteren
- je nieuwe inzichten te geven (welke thema’s zijn ‘trending’ binnen de incidentmeldingen van mijn organisatie?)
De komende maand gaat dit blog even met zomervakantie.
Daarna neem ik je verder mee in onze uitdaging om in een grote stapel meldingen (nu mét sleutelwoorden) de sterk gelijkende (bijna-)incidenten te detecteren.
Lees nu ook deel 7: En dan nú die speld uit de hooiberg!