Dit is het negende deel van een serie blogs over 'slimme software'. Hilbert Leijen, technisch directeur bij Infoland, geeft je hierin een uniek kijkje in onze keuken. Vorige delen gemist? Deel 1lees je hier.
In het afgelopen jaar heb ik je via dit blog op de hoogte gehouden van onze ontwikkelingen en experimenten op het gebied van ‘slimme software’. Bij experimenteren hoort ook evalueren:
Wat is er gelukt?
Wat is er niet gelukt?
Waarin gaan we verder investeren?
Wat is waardevol, maar kunnen we beter aan anderen overlaten?
In het negende en tiende deel van deze blogserie deel ik graag de belangrijkste punten uit onze evaluatie met jullie.
Slimme software voor … documentbeheer
- Automatisch samenvatten van documenten
Voor de Nederlandse taal is de stand der techniek momenteel dat ‘automatisch samenvatten’ neerkomt om het identificeren van “key phrases” (belangrijkste zinnen) uit het document.
Als je het systeem vraagt om een samenvatting in max. 500 tekens, dan zet het systeem de belangrijkste zinnen uit het document achter elkaar, totdat de 500 tekens zijn bereikt.
Het resultaat is daarmee dus geen samenvatting zoals een mens die zou schrijven – want een mens zou de samenvattende zinnen opnieuw formuleren. Desondanks kan zo’n automatische samenvatting heel bruikbaar zijn om snel een indruk te krijgen van waar het document over gaat. We hebben de functionaliteit daarom als proef ingebouwd in Zenya en laten uitproberen door een kleine groep eindgebruikers
Daaruit blijkt dat de toegevoegde waarde van deze techniek binnen Zenya op dit moment nog erg beperkt is. Dit heeft alles te maken met het soort documenten wat organisaties in Zenya onderbrengen; vaak gaat om puntsgewijs opgebouwde (werk)instructies, en die laten zich per definitie lastig samenvatten. We hebben daarom besloten om deze innovatie voorlopig even te parkeren.
- Automatisch herkennen van dubbele documenten
Het herkennen van documenten die identiek zijn is technisch eenvoudig, maar ook het herkennen van documenten die níet letterlijk hetzelfde zijn maar wel een zeer grote mate van overeenkomst hebben bleek prima haalbaar.
Deze ontwikkeling hebben we daarom direct opgenomen in de software en is inmiddels voor iedereen beschikbaar.
- Automatisch vertalen van documenten
Een deel van onze klantengroep bestaat uit meertalige organisaties.
Hieronder valt een deel van onze Belgische klanten, maar ook industriële multinationals die Zenya wereldwijd inzetten. Zij hebben de uitdaging dat ze documenten zoals werkinstructies in meerdere talen moeten onderhouden.
Vanuit de observatie dat de kwaliteit van machine translation steeds hoger wordt, hebben we een proof-of-concept gemaakt voor het automatisch vertalen van documenten in Zenya.
Op het moment dat een eindgebruiker een document opriep wat niet in zijn eigen taal beschikbaar was, werd het document in real-time automatisch vertaald. Op de achtergrond werkten we hiervoor met Google Translate en Microsoft Translator.
Vanuit techniek bekeken een geslaagd experiment. Tegelijkertijd zagen de betrokken klanten er ook risico’s in: waar het originele document zorgvuldig gecontroleerd en beoordeeld is, is de automatische vertaling dat niet – en dat introduceert een kans op fouten.
Is dat risico groter dan het risico dat de medewerker verkeerd handelt omdat hij überhaupt niet kon beschikken over een up-to-date instructie in zijn eigen taal? Dat is een valide vraag.
Als je als organisatie de volledige controle wilt behouden, kies je mogelijk liever voor het (blijven) onderhouden van meer taalversies. Ook daar zou machine translation kunnen helpen; de techniek zou je alvast een prima aanzet voor je vertaling kunnen geven, waarna je enkel nog hoeft te controleren en eventueel moet optimaliseren. Scheelt toch een hoop tijd en/of geld voor het zelf vertalen of inschakelen van een vertaalbureau!
Of en hoe dit spoor een vervolg zal krijgen in de software, is nog te bepalen. Meer input vanuit meertalige organisaties is dan ook zeer welkom!
- Verbeteren van zoekfunctionaliteit
In het afgelopen jaar zijn we veel bezig geweest met trefwoordextractie . Trefwoordextractie uit incidentmeldingen hielp ons nieuwe inzichten te verkrijgen, opvallende trends te ontdekken, en dubbele meldingen op te sporen.
Dezelfde concepten zijn prima toepasbaar binnen het doorzoeken van documenten. Door trefwoorden te herleiden en terug te brengen naar de stam, kunnen we de succeskans van zoekvragen verder verhogen. Ook andere technieken voor natural language processing, die we afgelopen jaar geraakt hebben, zouden een bijdrage kunnen leveren.
Wordt vervolgd dus!
In deel 10 gaan we verder met de wrap-up “slimme software voor (incident)melden en analyseren”.