Bijvangst van de Pilot Informatieautonomie. Archiveren is heel wat anders dan informatiseren
De gemeente Rotterdam digitaliseert drieënhalve kilometer aan bouwdossiers, een project dat doorloopt tot 2029. De gemeente Den Haag is bezig met ruim drie kilometer papier. Voor alle 342 gemeentes samen lopen de kosten van dit soort projecten in de honderden miljoenen euro's. Dat is veel duurder en tijdrovender dan nodig.
Beide vragen kwamen langs bij gemeentes die over informatieautonomie nadenken. Het is in zekere zin bijvangst van de pilot. Die legt steeds meer verschillen bloot. Tussen soevereiniteit en autonomie. Tussen digitaliseren en informatiseren. En tussen informatie opslaan en informatie betekenis geven, iets dat je informatiseren zou kunnen noemen.
Want archiveren beantwoordt de vraag waar iets is. Informatiseren beantwoordt de vraag wat erin staat, wat het betekent en hoe het verbonden is met al het andere dat je hebt.
Het is het verschil tussen een magazijn vol dozen en een bibliothecaris die elk boek gelezen heeft. De dozen staan er netjes en de labels kloppen. Maar als je vraagt in welke documenten een toezegging is gedaan aan bewoners van wijk X over geluidsoverlast, moet je bij het magazijn alle dozen openmaken. De bibliothecaris geeft je het antwoord.
Hoe digitaliseer je bouwtekeningen slim?
De vraag van de gemeente-ambtenaar luidde: hoe krijgen we decennia aan papieren bouwtekeningen toegankelijk? A0- en A1-formaten, blauwdrukken, diazokopieën, potlood op calqueerpapier. Diazokopieën zijn lichtdrukken op papier dat in de loop der jaren vergeelt en waarvan de lijnen vervagen. Calqueerpapier is doorzichtig tekenpapier waar architecten met potlood op werkten en dat na decennia bros wordt. Een gemeentearchief uit de twintigste eeuw bevat vier of vijf van zulke technieken door elkaar, elk met eigen eigenschappen die scannen lastig maken.
De gangbare aanpak is een scanbedrijf inhuren. Dat scant de tekeningen en indexeert ze handmatig op adres, kadastraal perceel, datum en aanvrager. Marktrichtprijzen liggen tussen de driehonderd en duizend euro per strekkende meter archief, afhankelijk van kwaliteit, voorbewerking en indexering. Een gemiddelde gemeente heeft honderden meters archief en tienduizenden tekeningen. Een grote gemeente honderdduizend tekeningen of meer.
De bedragen lopen daardoor snel op. De gemeente Westland trok in 2011 een krediet van 2,1 miljoen euro uit voor het digitaliseren van haar archieven, ongeveer 1.250 strekkende meter en zes miljoen A4'tjes, waaronder achtduizend bouwdossiers.
Aanbieders als GMS, Karmac, Multiscan en Paragon leveren scannen, opschonen en handmatige metadatering. Wat je terugkrijgt is een digitale foto van elke tekening, vindbaar op adres. Je kunt niet zoeken op alle panden in wijk X met een draagmuur op de begane grond, of alle verbouwingen waarbij asbest werd vermeld. Het systeem heeft de tekening opgeslagen, niet gelezen. GMS heeft sinds 2024 een AI+OCR-combinatie voor tekstdocumenten zoals kranten en dossiers, maar voor zover ik kan nagaan past geen van de gangbare aanbieders AI of OCR toe op tekeningniveau, en evenmin een domein-lexicon van bouwtermen dat de inhoud van de tekening probeert te begrijpen.
De aanpak die ik heb laten doorrekenen werkt anders. Voor een paar honderd euro koop je een statief, twee LED-panelen en een glasplaat. Een iPhone 15 of 16 Pro maakt vier foto's per A0 in een 2x2 grid, die softwarematig aan elkaar geplakt worden. De hardwarekosten liggen tussen de honderdtachtig en driehonderddertig euro voor het iPhone-pad, en rond de vijftienhonderd euro als je in plaats daarvan kiest voor een Sony-repro-camera, en allebei de opstellingen werken.
Daarna leest een combinatie van OCR-technieken de tekening, met een lexicon van bouwtermen uit verschillende tijdperken dat de fouten corrigeert. Wat overblijft zijn doorzoekbare en koppelbare gegevens: kamers, materialen, constructiedetails, en maatvoering. De API-kosten voor het verwerken van honderdduizend tekeningen liggen rond de duizend tot vijfduizend euro, plus de tijd van iemand die de camera bedient.
Eerlijk: dit is een doorberekening, geen bewezen resultaat. Ik heb deze pipeline nog niet op een historische gemeentecollectie getest. Maar dezelfde combinatie van technieken werkt op andere historische bronnen, zoals handgeschreven archiefkaarten en oorlogsdocumenten, op de schaal van miljoenen records. Bouwtekeningen zijn visueler dan tekstueel en brengen extra uitdagingen mee. Of het bij de tachtigste blauwdruk uit 1957 nog standhoudt, kun je alleen weten als je het probeert. Wat wel vaststaat is dat de prijsstructuur van de bestaande markt en die van deze aanpak niet met tientallen procenten verschillen, maar met ordes van grootte. Een gemeente kan met een tweedehands niet al te oude iPhone beginnen.
E-mail opslaan en bewaren voor de archiefwet kan veel slimmer, beter en fors goedkoper
De tweede vraag ging over e-mail. Hoe bewaar je als gemeente miljoenen mails op een manier die voldoet aan de Archiefwet en de Woo?
Voor de duidelijkheid: e-mail is al digitaal. Er valt niets te digitaliseren. En toch betalen gemeentes voor het overzetten van iets wat al digitaal is in een andere digitale doos.
De gangbare oplossing is Microsoft Purview, ingebed in Microsoft 365-licenties die overheidsorganisaties al hebben. De Purview Suite kost tien euro veertig per gebruiker per maand. Een middelgrote gemeente met vijfhonderd kantoormedewerkers zit alleen al aan licenties op meer dan tweeënzestigduizend euro per jaar. Inclusief implementatie, adviesbureaus en beheer komt het totaal op een veelvoud daarvan, vaak in de orde van enkele tonnen per jaar. De precieze bedragen verschillen per contract en zijn zelden openbaar. Naast Purview spelen leveranciers als Centric JOIN en Decos Doxis4 mee, en voor het zoeken in mailbergen bij Woo-verzoeken worden tools als Reveal en ZyLAB ingezet.
Al die systemen bewaren mails op basis van metadata: wie stuurde het, wanneer, bij welk zaaknummer hoort het. Wat erin staat blijft een blackbox.
Dat klinkt misschien tegenstrijdig, want metadata is toch precies waar het om gaat? Het verschil zit in het soort metadata. Wat deze systemen bijhouden is wie iets stuurde naar wie en wanneer. Niet waar het over gaat, welke toezegging er wordt gedaan, aan welke bewoner, op welk dossier, en hoe deze mail samenhangt met de honderd andere mails die over hetzelfde onderwerp gaan. Een mail van een wethouder over geluidsoverlast in wijk X krijgt netjes het label "wethouder, 14 maart, RE: bewonersbrief". Dat is genoeg om hem terug te vinden als je al weet dat hij bestaat. Het is niet genoeg om hem boven te krijgen als iemand een Woo-verzoek over geluidsoverlast in wijk X indient en de mail toevallig de woorden "die kwestie" gebruikt in plaats van "geluidsoverlast". Het systeem weet waar de mail ligt, niet wat erin gebeurt. Terug naar het magazijn en de bibliothecaris.
Komt er een Woo-verzoek binnen, dan moet iemand handmatig door duizenden mails om te bepalen wat relevant is en wat gelakt moet worden.
Veel gemeentes zetten nu AI in bij Woo-verzoeken. Vooral om geautomatiseerd persoonsgegevens te lakken in duizenden pagina's. Dat is begrijpelijk, want het handwerk is uitputtend.
Maar het lost een probleem op dat je had kunnen voorkomen.
Anders dan bij bouwtekeningen, waar AI nodig is om inhoud uit beeld te halen, is een mail al machineleesbaar. Wat ontbreekt is niet ontcijfering maar verbinding. Bij welk dossier hoort dit. Welke toezegging staat erin. Om welke bewoner gaat het.
Die verbinding leg je niet achteraf met een taalmodel dat door zestigduizend pagina's spit. Die leg je op het moment dat de mail binnenkomt of verstuurd wordt, met goede ordening en eenvoudige regels.
Het is alsof je een kast vol papieren hebt en een robot inhuurt om er namen uit te knippen, terwijl je ook gewoon opschriften op de mappen had kunnen plakken. E-mail is volgens schattingen die in de vakwereld circuleren een groot deel van wat onder een Woo-verzoek valt, soms tot zeventig procent. Een hard onderbouwd percentage heb ik niet gevonden, maar dat het om grote volumes gaat is onbetwist.
Dat zou minder erg zijn als de inrichting op orde was. Dat is hij niet. De Inspectie Overheidsinformatie en Erfgoed signaleert al jaren dat een aanzienlijk deel van de overheidsorganisaties geen vastgesteld beleid heeft voor e-mailarchivering. De VNG ontwikkelde voor gemeentes de Capstone-methodiek: van sleutelfiguren wordt alle e-mail permanent bewaard, e-mail van overige medewerkers na zeven jaar vernietigd. Sinds 1 januari 2024 is implementatie verplicht voor de gemeentes die zich erbij hebben aangesloten. Hoeveel gemeentes daadwerkelijk operationeel zijn met de methodiek is mij niet bekend, maar het beeld in vakpublicaties is dat de adoptie traag verloopt.
De nieuwe Archiefwet gaat later in dan gepland, op 1 januari 2027. Het doel is dat er meer informatie sneller toegankelijk gaat worden. En de opslagsystemen die nu worden ingekocht door gemeentes en andere overheden, zijn daar niet geschikt voor.
Of het nou gaat om papier of om bits and bytes, het mechanisme is hetzelfde. Er werd verplicht om die informatie te bewaren. En de industrie is daar gretig bovenop gesprongen. Maar digitalisering is niet hetzelfde als informatisering. Als je de inhoud niet makkelijk kan vinden en doorkruisen, je kunt geen patronen ontdekken, dan heb je er niet zoveel aan.
Dat het zo werkt is geen toeval. Er zijn harde regels in Europa over hoe je informatie moet opslaan, maar er is geen enkele aandacht besteed aan hoe je het ook weer terugvindt. Dat is minimaal hoogst merkwaardig. Een van de oorzaken zit in volkomen achterhaalde Europese aanbestedingsregels. Die hebben een verplichte categorielijst en die geldt voor alle overheidsopdrachten. Op die lijst staat scannen, opslag, archiefdienstverlening. Begrijpen staat er niet op. Op geen enkele manier is er nagedacht over het omgaan met de inhoud van alles wat je archiveert.
De echte implicaties en ellende hiervan komen pas aan het licht op het moment dat je de informatie nodig hebt. Er ligt een Woo-verzoek. Je krijgt een vergunningsaanvraag, of er is een juridisch geschil. Je hebt genoeg dozen en het zit er heus in. Maar je kunt het niet vinden.
Dit is geen technologieprobleem. Het is een denkprobleem, en daarmee ook een bestuurlijk probleem. Wie nu een meerjarig contract tekent voor een opslagsysteem zonder de vraag te stellen of de inhoud kenbaar is, tekent ook voor de Woo-vertraging van de jaren erna en de juridische blootstelling die daarbij hoort. De Archiefwet zegt: bewaar het. De Woo zegt: maak het vindbaar. Vindbaar is niet hetzelfde als begrijpbaar, en de echte waarde zit in dat tweede. We hebben nog een lange weg te gaan en ondertussen kost het de samenleving miljarden euro's die niet naar onderwijs, zorg of duurzaamheid gaan.
Meer over de Pilot Informatieautonomie.
Meer over de Pilot Informatieautonomie.