Skip to main content

Dit is het derde deel van een serie blogs over 'slimme software'. Hilbert Leijen, technisch directeur bij Infoland, geeft je hierin een uniek kijkje in onze keuken. Vorige delen gemist? Deel 1 en deel 2 van het blog lees je hier.

Deel 3 – Tekst is de parel

In deel 2 van dit blog heb ik het gehad over de hoeveelheid data die je nodig hebt om software slimmer te maken. Minstens zo relevant is echter de vorm van die data.
Wil je bijvoorbeeld software bouwen die accurate voorspellingen doet voor de huizenprijzen in een bepaalde regio? Dan heb je data nodig die zich leent voor predictive modeling: cijfermatige data. Denk aan het aantal meters vloeroppervlak, het aantal kamers, het aantal km tot een school, het gemiddelde maandinkomen van inwoners van de regio, enzovoorts.

 

 

d0779225-9bcc-49e5-be5f-2f483c23a645.jpg

 


Gaan we weer even terug naar ons ‘eigen’ terrein van kwaliteits- en risicomanagement, dan blijkt de beschikbaarheid van (veel) cijfermatige data niet vanzelfsprekend. Neem incidentmanagement. We mogen ons bij Infoland gelukkig prijzen met veel trouwe klanten, waarvan een aantal al meer dan 10 jaar aan incidenthistorie heeft opgebouwd in onze software.
Super veel data dus!

Maar als het om cijfers gaat – dan zijn we snel klaar. Een incidentrapportage bestaat vooral uit tekst. En dat is logisch. Een incident of bijna-incident is vervelend, en de melder wil graag zijn verhaal kwijt. Daarnaast vinden mensen het doorgaans niet heel prettig om ellenlange formulieren vol (meer)keuze vragen door te werken. Liever geven ze in eigen woorden aan wat er gebeurd is - en gaan ze vlug weer door met hun werk.

Conclusie: de meest waardevolle data zit voor een groot deel opgesloten in vrije tekst.
Voordat we aan de slag kunnen met het zoeken naar correlaties en opvallende trends, en voordat we ons zouden kunnen wagen aan het doen van voorspellingen, hebben we dus eerst een andere uitdaging. Zie de tekst als een oester:
Als we leren hoe de oester te kraken, kunnen we de informatie-parel die erin opgesloten is bevrijden.


Nu is natural language processing een van de deelgebieden van AI waarin de ontwikkelingen heel hard gaan. Dat zie je bijvoorbeeld terug in de enorme kwaliteitsslag die automatisch vertalen heeft gemaakt. De tijd dat je automatisch vertaalde teksten er direct uitpikte (en tot hoofdbrekens leidden over wat er toch bedoeld zou worden) is definitief voorbij.
Even indrukwekkende vorderingen zijn er in speech-to-text technologie. De aankomende update van Microsoft Teams kan de aanwezigen in een video-meeting live ondertitelen. Een uitkomst voor doven en slechthorenden – maar het heeft meer voordelen. Opeens wordt alles wat is besproken in de meeting achteraf eenvoudig ‘full tekst’ doorzoekbaar! En door de live-ondertiteling ook direct te vertalen, maak je de meeting ineens ook toegankelijk voor internationale collega’s of partners.


Wow! Dat is cool!
Er is alleen één maar… Veel van deze innovaties werken op dit moment enkel in het Engels, of hooguit in een handjevol ‘grote’ talen. Het overgrote deel van onze klanten is echter Nederlandstalig. En dan is de spoeling een stuk dunner. Dat geldt voor ‘kant en klaar producten’ zoals Teams, maar ook voor de AI-toolkits waar wij als ontwikkelaars gebruik van maken.

Het goede nieuws is dat het natuurlijk een kwestie van tijd is voor ook het Nederlands tot de ondersteunde talen gaat behoren. Zo ging het immers ook met Siri, met Google Home, enzovoorts.
We zouden dus rustig achterover kunnen leunen en wachten tot de tijd rijp is...
maar dat hebben we uiteraard niet gedaan.

We hebben een aantal pijnpunten uit de praktijk van onze klanten geïnventariseerd, en zijn daarmee aan de slag gegaan. Grote gemene deler: de informatie heeft de vorm van vrije tekst.

Volgende keer gaan we hiermee de diepte in!

 

 

 

 

 

Geen reactie

Reageer