Ik schrijf maandelijks een column voor IP Magazine, hét magazine voor informatieprofessionals.
Ditmaal over taal en termen die we vaak gebruiken maar mijns inziens onvoldoende begrijpen:
We smijten te veel met termen die we onvoldoende begrijpen
De woorden digitalisering, digitale transformatie, kenniswerk, data en informatie komen in ons werkveld veelvuldig voor en worden dagelijks gebruikt. Maar zelden staan we stil bij de betekenis en context ervan. Of staan we erbij stil dat bijna iedereen er een andere betekenis aan geeft. Wat is digitalisering eigenlijk? Wat zijn data, en hoe ga je ermee om? Hoeveel is nu echt een kilobyte? Wat kun je daar precies in kwijt? Als iedereen dezelfde woorden gebruikt maar niemand dezelfde betekenis hanteert, wordt het lastig om grip te krijgen op wat er gebeurt, laat staan om verstandige beslissingen te nemen.
LANGS ELKAAR HEEN PRATEN
Afgelopen najaar vroeg ik op een congres aan een zaal vol informatieprofessionals wie het woord ‘parser’ kende. Bijna niemand stak zijn hand op. Een parser is een stukje software dat gegevens leest en omzet naar een bruikbaar formaat. Elke keer dat je een spreadsheet importeert, een pdf doorzoekbaar maakt of een catalogusbestand inleest, is er ergens een parser aan het werk. IT’ers weten dit en bouwen er hun oplossingen omheen. Informatieprofessionals weten het vaak niet, en kunnen daardoor niet bedenken wat hun belangrijkste werktuig wel of niet kan als het gaat om het automatisch verwerken van bestanden met informatie erin. Die twee werelden praten langs elkaar heen, simpelweg omdat ze elkaars vocabulaire niet delen.
LANGS ELKAAR HEEN PRATEN
Afgelopen najaar vroeg ik op een congres aan een zaal vol informatieprofessionals wie het woord ‘parser’ kende. Bijna niemand stak zijn hand op. Een parser is een stukje software dat gegevens leest en omzet naar een bruikbaar formaat. Elke keer dat je een spreadsheet importeert, een pdf doorzoekbaar maakt of een catalogusbestand inleest, is er ergens een parser aan het werk. IT’ers weten dit en bouwen er hun oplossingen omheen. Informatieprofessionals weten het vaak niet, en kunnen daardoor niet bedenken wat hun belangrijkste werktuig wel of niet kan als het gaat om het automatisch verwerken van bestanden met informatie erin. Die twee werelden praten langs elkaar heen, simpelweg omdat ze elkaars vocabulaire niet delen.
Met data is iets vergelijkbaars aan de hand. We denken bij data aan datacenters en opslagcapaciteit, aan grote volumes die ergens in de cloud zweven. Maar hoeveel is eigenlijk een kilobyte, en hoeveel namen passen daarin? Ik merk steeds vaker, zeker nu ik meer met AI werk, dat basiskennis over bits en bytes cruciaal is als je wilt nadenken over data.
GASSELTERBOERVEENSCHEMOND
De langste aaneengeschreven plaatsnaam van Nederland is Gasselterboerveenschemond, een buurtschap in Drenthe met ongeveer 35 inwoners. De naam telt 25 letters. In een computerbestand neemt elke letter 1 byte in beslag, dus Gasselterboerveenschemond kost 25 bytes aan opslagruimte.
GASSELTERBOERVEENSCHEMOND
De langste aaneengeschreven plaatsnaam van Nederland is Gasselterboerveenschemond, een buurtschap in Drenthe met ongeveer 35 inwoners. De naam telt 25 letters. In een computerbestand neemt elke letter 1 byte in beslag, dus Gasselterboerveenschemond kost 25 bytes aan opslagruimte.
Nederland telt ongeveer 6.000 plaatsnamen. Stel dat alle plaatsnamen zo lang waren als Gasselterboerveenschemond. Dan zou een simpele lijst van alle Nederlandse plaatsnamen 6.000 x 25 = 150.000 bytes kosten, ongeveer 150 kilobyte. Je kunt alle plaatsnamen van Nederland dus ruim 6.500 keer opslaan in 1 gigabyte. En dat is het extreme scenario. De meeste plaatsnamen zijn veel korter: Ee in Friesland telt maar 2 letters, Assen heeft er 5. Met een gemiddelde van 8 tekens kom je op nog geen 50 kilobyte voor alle plaatsnamen van Nederland. Dat is kleiner dan een gemiddelde e-mail.
Ook met persoonsnamen valt het mee. De langste geregistreerde voornaam en achternaam in Nederland tellen samen ruim 100 tekens. Als alle 18 miljoen Nederlanders zulke extreme namen hadden, zou een lijst met al die namen nog steeds op een goedkope USB-stick passen. In werkelijkheid heet de gemiddelde Nederlander iets als Jan de Jong of Anna Jansen. Met 18 miljoen keer 11 bytes kom je op 198 megabyte. Alle namen van alle Nederlanders passen in een bestand dat kleiner is dan een serie of film die je streamt.
SCHONEN EN STRUCTUREREN
We hebben tegenwoordig een volwaardige computer in onze broekzak: de smartphone heeft de rekenkracht van een desktopcomputer van tien jaar geleden. We gebruiken tablets en laptops, we praten over het web en over data, maar we hebben geen enkel beeld of context meer bij wat die woorden eigenlijk betekenen. Zonder die context kun je zomaar denken dat iets groot en complex en moeilijk is, terwijl het in de praktijk reuze meevalt. En je bespaart er dure onnodige IT-adviezen mee.
SCHONEN EN STRUCTUREREN
We hebben tegenwoordig een volwaardige computer in onze broekzak: de smartphone heeft de rekenkracht van een desktopcomputer van tien jaar geleden. We gebruiken tablets en laptops, we praten over het web en over data, maar we hebben geen enkel beeld of context meer bij wat die woorden eigenlijk betekenen. Zonder die context kun je zomaar denken dat iets groot en complex en moeilijk is, terwijl het in de praktijk reuze meevalt. En je bespaart er dure onnodige IT-adviezen mee.
Mijn Gmail-archief is een mooi voorbeeld. Jarenlang dacht ik dat ik gigabytes aan e-mail had verzameld, een schier ontembare berg data. Totdat ik besloot om het eens grondig op te schonen en te structureren. Die vele gigabytes? Na opschoning bleek het hooguit een paar honderd megabyte te zijn. Het verschil tussen wat ik dacht te hebben en wat ik werkelijk had, was een factor tien tot twintig.
KRACHT VAN VERBONDEN DATA
Hoe kan dat? Het antwoord is duplicatie. Onderzoekers schatten dat 90 procent van alle data in de wereld kopieën zijn van iets dat al ergens anders staat. Dezelfde bijlage die tientallen keren heen en weer is gestuurd. Dezelfde handtekening onder elke e-mail. In mijn archief stond ‘KNVI’ honderden keren, ‘Utrecht’ duizenden keren en de naam van elke collega tientallen keren voluit gespeld. Terwijl ik elk van die gegevens maar één keer hoef op te slaan en er vervolgens naar kan verwijzen. Iets wat IT’ers goed snappen maar veel informatieprofessionals niet, omdat die meer naar documentatie dan naar informatie kijken.
KRACHT VAN VERBONDEN DATA
Hoe kan dat? Het antwoord is duplicatie. Onderzoekers schatten dat 90 procent van alle data in de wereld kopieën zijn van iets dat al ergens anders staat. Dezelfde bijlage die tientallen keren heen en weer is gestuurd. Dezelfde handtekening onder elke e-mail. In mijn archief stond ‘KNVI’ honderden keren, ‘Utrecht’ duizenden keren en de naam van elke collega tientallen keren voluit gespeld. Terwijl ik elk van die gegevens maar één keer hoef op te slaan en er vervolgens naar kan verwijzen. Iets wat IT’ers goed snappen maar veel informatieprofessionals niet, omdat die meer naar documentatie dan naar informatie kijken.
Onze verslaving aan documenten ontneemt ons het zicht op de kracht van verbonden data. Al in 1945 schreef Vannevar Bush over dit probleem: we slaan informatie op in hiërarchieën en categorieën, terwijl de menselijke geest werkt via associatie. Een goed ontworpen systeem slaat ‘Utrecht’ één keer op en verwijst er vervolgens naar, of dat nu een relationele database is of een netwerk van Markdown-bestanden met metadata en links. Onze dagelijkse digitale praktijk doet het tegenovergestelde: we vermenigvuldigen informatie in plaats van haar te verbinden.
GEEN OPSLAG- MAAR ORGANISATIEPROBLEEM
Ik dacht dus een opslagprobleem te hebben, maar dat bleek in werkelijkheid een organisatieprobleem. En een dieper begrip van hoeveel een kilobyte of megabyte is was daarbij onontbeerlijk.
GEEN OPSLAG- MAAR ORGANISATIEPROBLEEM
Ik dacht dus een opslagprobleem te hebben, maar dat bleek in werkelijkheid een organisatieprobleem. En een dieper begrip van hoeveel een kilobyte of megabyte is was daarbij onontbeerlijk.
De afgelopen vijf maanden werkte ik aan een experiment. Ik verzamelde dertig jaar aan persoonlijke data: e-mail, sociale media, banktransacties, agenda, adresboek, gezondheidsdata. Na unificeren en ‘dedupliceren’ paste alles in minder dan 300 megabyte. Minder dan één film in hoge kwaliteit. Mijn hele leven aan referentiegegevens past op een fractie van mijn telefoon. De grote informatiebeloften worden eindelijk waargemaakt. Maar daar heb je dus ‘gededupliceerde’ en gestructureerde informatie voor nodig.
SNAP WAAR JE HET OVER HEBT
Informatieprofessionals zijn van oudsher de mensen die complexe informatievraagstukken vertalen naar begrijpelijke taal. Die rol is in het digitale tijdperk alleen maar belangrijker geworden, maar dan moet je wel eerst zelf begrijpen waar je het over hebt. Een kilobyte is geen abstract begrip, het is ongeveer twee keer de openingsalinea van deze column. Een megabyte is duizend keer zoveel en een gigabyte nog eens duizend keer groter.
SNAP WAAR JE HET OVER HEBT
Informatieprofessionals zijn van oudsher de mensen die complexe informatievraagstukken vertalen naar begrijpelijke taal. Die rol is in het digitale tijdperk alleen maar belangrijker geworden, maar dan moet je wel eerst zelf begrijpen waar je het over hebt. Een kilobyte is geen abstract begrip, het is ongeveer twee keer de openingsalinea van deze column. Een megabyte is duizend keer zoveel en een gigabyte nog eens duizend keer groter.
De volgende keer dat iemand zegt dat iets ‘veel data’ is, vraag hoeveel. Je bent informatieprofessional. Dit is je vak.
Hier de link naar het originele stuk.
Hier de link naar het originele stuk.