door Katja Ermers en Tessa Helmer

De afgelopen jaren zijn er veel ontwikkelingen binnen ons bedrijf geweest. Een van die ontwikkelingen is het toepassen van Machine Learning om het data-analyse proces te automatiseren. Twee afstudeeropdrachten die hieruit voortkwamen zijn het uitlezen van facturen (Tessa) en het classificeren van documenten (Katja). Wij hebben allebei onze Data Science achtergrond kunnen gebruiken voor twee mooie afstudeeronderzoeken.

De opdrachten

Eén onderdeel van de Data-Analyse binnen SoliTrust is het vergelijken van data in een ERP systeem met de onderliggende brondocumentatie. Een accountant wil zeker weten dat deze gegevens gelijk aan elkaar zijn. Voorbeelden zoals, iemand die een datum in een ander format heeft gezet, een komma die op de verkeerde plek staat of data die niet ingevoerd is, kunnen daardoor makkelijker gevonden worden. Hiervoor wilde SoliTrust een model dat documenten, in de eerste instantie inkoopfacturen, uitleest en vergelijkt met de ingevoerde data.

Maar voordat een document uitgelezen kan worden, moet je natuurlijk wel weten welk document bij welk algoritme hoort. Zo wordt een VOG door een ander algoritme verwerkt dan een bankbestand of een inkoopfactuur. Hierdoor ontstond de vraag: Hoe kunnen we alle documenten zo efficiënt mogelijk classificeren, zodat ze meteen door het juiste algoritme worden uitgelezen?

De uitvoering

Maar hoe maak je nou een algoritme die allerlei soorten facturen kan uitlezen en hoe maak je een algoritme dat allerlei soorten documenten kan herkennen? Beide vragen zijn te beantwoorden met Machine Learning. Er zijn namelijk allerlei Machine Learning algoritmes die met als input foto’s en/of tekst kunnen classificeren en lokaliseren.

Het uitlezen van facturen is gedaan met een Transformer model (een Deep Neural Network). Zulke modellen zoeken alle relaties tussen de input en kennen door die relaties een label toe aan elk woord. Een voorbeeld is het totaalbedrag, het model gaat dan herkennen dat het vaak ergens onderaan staat, dikgedrukt is en in een bepaald format (getal) staat. Al deze kenmerken zorgen ervoor dat het getrainde model zijn kennis kan gebruiken om alle belangrijke velden op de documenten met een gelijk format te herkennen.

Ook het classificeren van documenten is met een Machine Learning model gedaan. Dit model maakt een wiskundige representatie (encoding) van de tekst op de documenten. Welke wordt gebruikt om onbekende documenten hun label te voorspellen. Vervolgens wordt het archief, de bij ons bekende documenten, gebruikt om de grootst overeenkomende classificatie te vinden.

Afstuderen

Beide opdrachten zij met succes afgerond! We hebben tijdens onze stages veel geleerd en zijn volop bezig met het toepassen van onze kennis binnen SoliTrust. Zoek jij ook een uitdagende stage op het gebied van Data Science? Schroom dan niet om ons een berichtje te sturen!