Trainable classifiers

Het beheren en beveiligen van ongestructureerde informatie is een uitdaging. De hoeveelheid van informatie die wij dagelijks produceren wordt dagelijks groter. En daarmee ook de uitdaging om deze informatie te vinden, classificeren, bewaren en te beschermen. Vanuit wet- en regelgeving zijn organisaties geboden aan regels om hier invulling aan te geven.

Microsoft Purview en Microsoft 365

Het classificeren, bewaren en beschermen van informatie zijn functies die onderdeel zijn van Microsoft 365. Via Microsoft Purview Data Lifecycle Management en Information Protection is het voor een medewerker mogelijk een zogenaamd label aan informatie te koppelen.

Maar dit proces is niet altijd gebruikersvriendelijk en uiteindelijk ook foutgevoelig. Het is beter om de inhoud van de informatiebron te gebruiken hiervoor. Wordt bijvoorbeeld in een document een medische term gebruikt, dan wordt dit document als zodanig geclassificeerd.

Dit concept staat binnen Microsoft Purview bekend als auto-classificatie van informatie. Binnen Microsoft Purview bestaat er een aantal manieren om gevoelige informatie te detecteren. Een lijst met ingebouwde “Gevoelige informatietypen” kan worden gebruikt om een BSN of paspoortnummer te vinden in een document. Ook is het mogelijk een woordenboek van gevoelige termen toe te voegen aan Microsoft Purview of gebruik te maken van gestructureerde informatie uit een database platform. Denk hierbij aan patiëntgegevens bijvoorbeeld.

Deze manieren zijn vrij statisch van aard doordat ze strak zijn voor gedefinieerd. Hoewel de zogenaamde Regular Expression (RegEx) mogelijkheid wel meer dynamiek biedt.

Bovendien leveren de gevoelige informatietypen nog steeds vaak zogenaamde false positives op. En false positives is iets wat we enorm willen vermijden bij het werken met informatiebeveiliging. Het finetunen van deze manieren van detectie is hierdoor van groot belang.

Trainable classifiers

Enige tijd geleden introduceerde Microsoft het concept van de zogenaamde “Trainable Classifiers”. Anders gezegd: een manier om het classificatieschema van Microsoft Purview te trainen om gevoelige informatie te detecteren.

Initieel was het hierbij aan de organisatie zelf om deze training uit te voeren. Bijvoorbeeld op basis van voorbeeld informatie (facturen, auditrapporten, enzovoort). Was het getrainde model in orde, dan kon deze gebruikt worden.

Niet zo lang hierna bracht Microsoft een aantal standaard modellen uit. En deze betroffen zowel generieke informatie als uitingen in communicatie (bijvoorbeeld pestgedrag). Momenteel is de lijst van standaard modellen zeer uitgebreid. En zeer recent zijn er ook aanvullingen aangebracht. Voorbeelden zijn:

Finance
Invoices
Health and medical forms
Employment agreements
Network design files
License agreements
Non-disclosure agreements

Deze zogenaamde “voorgetrainde” modellen zijn gebaseerd op de informatie uit machine learning technologie, wet- en regelgeving, gebruikelijke classificatieschema’s en input vanuit subject matter experts.

Een groot nadeel van deze modellen is echter wel dat deze voornamelijk in de Engelse taal zijn opgesteld. Maar het is gelukkig wel mogelijk om zelf één of meerdere modellen aan te maken. Hierbij maakt u gebruik van voorbeelden van de informatie. Bijvoorbeeld een factuur of arbeidsovereenkomst.

Op het moment dat een model getraind is, kan deze worden gebruikt binnen Microsoft Purview Information Protection, Data Loss Prevention, Communications Compliance en Data Lifecycle Management. Wanneer een document wordt opgeslagen in Microsoft 365, wordt de gevoeligheid gedetecteerd.

Trainable Classifier modellen maken het mogelijk om op grote(re) schaal gevoelige informatie te detecteren, classificeren en beveiligen. Bovendien zijn deze modellen betrouwbaarder ten opzichte van de reeds bestaande mogelijkheden.

Voor alle auto-classificatie mogelijkheden in Microsoft Purview en het gebruik van deze modellen geldt, dat hiervoor een aanvullende E5 licentie vereist is.