Data Catalogus Referentiemodel: grip op data

Van greenfield naar productie

Drie jaar geleden besloot Financiële Dienstverlener (FD) haar strategie drastisch om te gooien en datagedreven werken tot een kerncompentie van haar primaire processen te maken. Om die strategie te realiseren werd een meerjarig programma geïnitieerd waarbij langs drie assen benodigde veranderingen werden gerealiseerd: cultuur & werkprocessen, data(management) en technologie & infrastructuur. Door middel van experimentele projecten werden in een afgebakende omgeving de eerste data-toepassingen gerealiseerd.

De kennis en ervaring uit deze projecten werd gebruikt om een data platform op basis van Microsoft Azure te ontwikkelen en een datapositie op te bouwen. Datamanagement-processen kregen vorm, kennis & vaardigheden van medewerkers werden verder ontwikkeld en primaire processen anders ingericht. Het resultaat was dat primaire processen én via experimenten en pilots én met structurele data-toepassingen ondersteund konden worden. 

De ontwikkeling van deze ‘capabilities’ vond parallel plaats aan het realiseren van concrete data-toepassingen. Terwijl als het ware de fabriek nog werd gebouwd, werden de eerste producten al geleverd. Door de continue groei in omvang en in het gebruik van data werd het belang van datamanagement vanzelfsprekend alleen maar groter. Hiertoe werden gebruikelijke aspecten als dataclassificatie, gegevenseigenaarschap, data autorisatie, data profiling, gegevensleveringsovereenkomsten (GLO) en gegevensbescherming ingericht.

Hoewel ieder van deze initiatieven voor meer controle en grip zorgde, werd ook duidelijk dat de noodzakelijke beheersing meer en meer onder druk kwam te staan. FD realiseerde zich dat er twee problemen waren. Ten eerste nam het overzicht over en inzicht in de samenhang tussen verschillende datamanagement aspecten steeds verder af, zowel in opzet als in de praktische uitvoering, Met als gevolg dat ieder aspect afzonderlijk meer aandacht kreeg waardoor het overzicht nog verder verslechterde.mDaarnaast werd duidelijk dat voor de uitvoering van ieder aspect – of het nu dataclassificatie, profiling of een GLO was – één master catalogus van data assets onontbeerlijk was. Voor FD was het vanzelfsprekend dat het oplossen van deze twee problemen essentieel was om de toekomstige groei verder op te kunnen vangen, om het programma over te kunnen laten gaan naar de staande organisatie en om compliant te blijven met wet- & regelgeving.

Als preferred supplier werd Deltiq gevraagd om te helpen met deze vraagstukken. Hoewel het vanaf het begin duidelijk was dat – op termijn – ondersteuning door tools noodzakelijk en onvermijdelijk was, was ook duidelijk dat het in de kern begrijpen waar we het over hebben als over ‘data’ gesproken wordt, essentieel was. Als eerste stap hebben we daarom het Data Catalogus Referentiemodel (DCR) ontwikkeld. Het model bestond uit slechts drie scherp gedefinieerde componenten en werd geïllustreerd aan de hand van concrete voorbeelden uit de (data)praktijk van FD. Het bleek het begin van een radicaal andere manier van het implementeren van datamanagement en ondersteuning ervan met een data catalogus.

“De kracht van het Data Catalogus Referentiemodel is de eenvoud. Met slechts drie concepten kan vrijwel elk datamanagement vraagstuk worden benaderd. Door ieder keer op deze drie concepten terug te vallen wordt consistentie en samenhang gewaarborgd.” – Wouter van Aerle, Managing Partner Deltiq

Van onduidelijkheid naar overzicht

Het DCR vormde een logisch startpunt om alle lopende datamanagement-initiatieven aan te relateren. Hiertoe werd – tool onafhankelijk – van ieder initiatief in kaart gebracht wat de belangrijkste eigenschappen waren. Voor bijvoorbeeld het beheren van GLO’s was dit de identificatie van de GLO zelf, de leveringskarakteristieken, de data die in het kader van een GLO periodiek wordt geleverd en de eigenaar van de afspraken. Of voor data autorisatie de data waarop geautoriseerd moet worden, de rollen & rechten die daarbij gebruikt moeten worden en de gebruikers(groepen). Alle relevante eigenschappen werden zo in kaart gebracht waarbij er altijd een relatie viel te leggen naar één van drie kernconcepten. Feitelijk groeide het referentiemodel op deze manier met aanvullende informatie.

Door uit te gaan van lopende datamanagement-initiatieven werd bovendien aangesloten bij actuele vraagstukken: alleen díe data-concerns die gemanaged moesten worden, werden opgenomen in het referentiemodel en later toegevoegd aan de catalogus c.q. administraties. Deze agile manier van werken zorgde zo voor praktische relevantie. 

Het geheel werd op een ‘one-pager’ gevisualiseerd waardoor alle datamanagementinitiatieven in hun samenhang inzichtelijk gemaakt worden. Dit bleek een krachtig en eenvoudig communicatiemiddel. Betrokkenen – zowel binnen het programma als onder gebruikers – herkenden de aspecten waar ze mee te maken hadden én begrepen nu veel duidelijker hoe hun werk zich verhield tot dat van andere collega’s. Alleen al door dit ene overzicht, werd de afstemming tussen verschillende datamanagement-initiatieven verbeterd.

Het overzicht hielp ook bij het identificeren van die eigenschappen die het meest cruciaal waren voor datamanagement. Het is niet verrassend dat dit de drie kernconcepten waren die we in de eerste stap hadden geïdentificeerd. Alleen werd nu veel inzichtelijker waarom dat het geval was.

Daarnaast ondersteunde het overzicht bij het scherper in beeld krijgen van de afbakening van datamanagement aspecten, zoals data autorisatie, compliancy en gegevensleveringen. Dit werd vervolgens gebruikt voor het herdefiniëren van benodigde verbeterinitiatieven en prioriteiten. Met de one-pager ontstond overzicht en inzicht maar het was ook duidelijk dat verdere verdieping nodig was om de betreffende administraties (in een Data Catalog-oplossing) concreet te kunnen realiseren.

Daarom hebben we het tussenresultaat uitgewerkt in een conceptueel informatiemodel. Hierin werden alle in kaart gebrachte eigenschappen precies beschreven en gedefinieerd. Door gebruik te maken van fact-based modeling – een formele modelleermethode – waren we in staat om dubbelzinnigheid of onduidelijkheden door vage termen weg te nemen, nieuwe concepten te introduceren die specifieke vraagstukken oplosten en spelregels te formuleren (‘Gebruikers van het type “Consument” mogen alleen data in de Productie-omgeving raadplegen’). Met de genoemde one-pager hadden we nu eenheid van taal om op een ondubbelzinnige manier over ieder relevant datamanagement vraagstuk te praten. Omdat de onderliggende methode – fact-based modeling – uitgaat van concrete voorbeelden, dus uit de directe operationele praktijk van FD – was het model bovendien begrijpelijk en herkenbaar. Dat zorgde voor buy-in en ondersteuning voor het model waardoor de acceptatiegraad toenam

Met ook een formele beschrijving lag er nu een vertrekpunt om verbeteringen door te voeren. Hiertoe wordt het referentiemodel als verplichte basis gebruikt. Elk datamanagement-initiatief moet in het referentiemodel ‘passen’. Als concepten ontbreken wordt het referentiemodel bijgewerkt. Op basis van het referentiemodel werden administraties ingeriZo worden alle data science-projecten en de door een project gebruikte data geregistreerd. Hoewel die registratie nog in Excel plaatsvindt, worden de rubrieken die worden vastgelegd volledig voorgeschreven door het referentiemodel.

Verschillende Azure diensten worden gebruikt voor verschillende datamanagement processen. Zo wordt Identity Governance (ID) en Azure Active Directory (AAD) gebruikt om gebruikers op self-service manier toegang tot data te laten aanvragen. Aan de hand van het referentiemodel viel precies af te bakenen welke functionaliteit ID en AAD wel c.q. niet afdekten. Purview is de eind 2020 door Microsoft gelanceerde Data Catalogus-oplossing. Op basis van het referentiemodel is een beoordeling van Purview uitgevoerd. Zo werd duidelijk welke Catalog-requirements – voorgeschreven door het referentiemodel – door Purview worden ondersteund. Op basis hiervan wordt Purview verder ingericht. Voor specifieke aspecten wordt maatwerksoftware ontwikkeld om eigenschappen te administreren die niet door Purview worden vastgelegd. Het referentiemodel schrijft voor welke eigenschappen apart moeten worden geadministreerd.

Back in control

Met het Data Catalogus Referentiemodel heeft FD weer grip op alle ontwikkelingen rondom datamanagement. Het vormt de basis voor de verdere inrichting van de Data Catalogus Purview en het realiseren van aanvullende catalogus-functionaliteiten op alternatieve manieren.

Specifieke betrokkenen zijn blij over de gang van zaken en zien dat hun belangen worden afgedekt. Bovendien heeft deze manier van werken gezorgd voor significante efficiëncyverbeteringen: het is mogelijk met dezelfde inspanning meer gebruikers en meer data te beheren.