Wat betekent dit voor archieven? — Groningse Oorlogspuzzels

De bottleneck

De archiefwereld werkt al decennia met drie stappen:

Gedaan

Bewaren
Het fysieke object veiligstellen

Gedaan

Digitaliseren
Een foto maken van het object

Vastgelopen

Ontsluiten
Metadata toevoegen zodat je het kunt vinden

Stap 3 is waar het stokt — en dat is genuanceerder dan je zou denken. Ontsluiten betekent in de archiefwereld niet dat je elke kaart transcribeert, maar dat je beschrijft wat er is zodat iemand het kan vinden. En dat is op collectieniveau vaak wél gedaan: kaarten staan in inventarissen, zijn geordend op naam, en zijn fysiek of digitaal op te zoeken. Maar de inhoud van die kaarten doorzoekbaar maken — elke kaart lezen, structureren in velden, koppelbaar en telbaar maken — dat is een wezenlijk andere stap. En die stap blijft bij de meeste collecties liggen, simpelweg omdat het met de hand te veel werk is.

Het gevolg is dat enorme collecties wel gedigitaliseerd en op stuk-niveau vindbaar zijn, maar dat de inhoud ontoegankelijk blijft. Je kunt een kaart opzoeken als je de persoon al kent — maar je kunt niet vragen hoeveel kaarten Neuengamme noemen, of wie er op 13 november 1943 werd gearresteerd, of welke namen steeds terugkeren als verrader.

De verzetskaarten van het OVCG in Groningen zijn daar een treffend voorbeeld van. Het digitale archief werd voor het eerst gepubliceerd in 2004, en in 2021 kende het Mondriaanfonds het project "OVCG Zichtbaar Online" toe — een tweejarig traject in samenwerking met de Groninger Archieven om de collectie te beschrijven en de vindbaarheid te verbeteren. Dat is professioneel en zorgvuldig gedaan, en het resultaat mag er zijn: 4.272 van de 4.615 kaarten zijn gedigitaliseerd en vindbaar op naam. Maar de inhoud van die kaarten — wat erop staat, wie erin genoemd wordt, welke verbanden ertussen zitten — was nooit doorzoekbaar gemaakt. Niet omdat het werk niet goed was, maar omdat die stap met de toenmalige middelen simpelweg niet haalbaar was. Tot april 2026.

Het verschil tussen OCR en informatiseren

Wat hier is gebeurd lijkt op OCR, maar het is iets wezenlijk anders. Traditionele OCR leest getypte tekst en maakt er platte tekst van — karakter voor karakter, zonder enig begrip van wat er staat. Het resultaat is een doorzoekbare tekst, maar ook niet meer dan dat.

Wat ik heb gebruikt is een Vision LLM: een AI-model dat afbeeldingen kan bekijken en begrijpen. Het leest niet alleen het handschrift — het herkent dat "geb. 12-3-1918" een geboortedatum is, dat "KP" een verzetsgroep is, dat "Neuengamme" een concentratiekamp is, en dat "gearr. 4-12-1944" betekent dat iemand op die datum is gearresteerd. Het verschil wordt concreet als je kijkt naar dezelfde kaart:

OCR levert: "Koerierster, veel verzetswerk. Vrouwenmars nr 104."

Vision AI levert: Naam: Albertien Lunshof-Lunshof. Rol: koerierster. Verzetswerk: ja. Vrouwenmars: deelnemer, nummer 104. Eigen kaart: nee — vermeld als bijzin op kaart van echtgenoot Albert Lunshof (minr 1153854).

Dat is geen transcriptie — dat is begrijpend lezen en structureren in één stap. De machine doet in één handeling wat traditioneel twee aparte processen zijn: eerst lezen, dan catalogiseren. En daar zit de doorbraak. Niet in de snelheid, maar in het feit dat digitaliseren en ontsluiten samenvallen. Het gat ertussen verdwijnt.

En Transkribus dan?

Transkribus is een gevestigd platform voor handschriftherkenning dat breed wordt gebruikt in de Europese archiefwereld, en het is uitstekend in wat het doet: handschrift omzetten in doorzoekbare tekst. Maar het is en blijft transcriptie — het levert platte tekst, geen gestructureerde data. Je kunt zoeken op het woord "Neuengamme" maar je krijgt geen veld concentratiekamp: Neuengamme, deportatiedatum: 12-11-1944. Transkribus maakt tekst doorzoekbaar. Wat hier is gedaan maakt betekenis doorzoekbaar.

Hetzelfde geldt voor crowdsourcing-platformen als VeleHanden.nl, waar duizenden vrijwilligers handgeschreven documenten transcriberen — waardevol werk, maar het doel is en blijft transcriptie, niet informatisering.

Hoe wij anders naar handgeschreven teksten kijken — en hoe je kunt verifiëren of wat AI vindt ook klopt — beschreef ik eerder in Hoe weet je of wat AI vindt ook klopt, als je in een oud archief zoekt?

Het verschil tussen transcriberen en informatiseren

Transcriberen is in de kern één handeling: tekst overzetten van het ene medium naar het andere. Van handschrift naar digitale tekst. Het is één discipline — paleografie — en het resultaat is een leesbare kopie van wat er stond.

Informatiseren is iets wezenlijk anders, en het onderscheid is cruciaal. Het betekent: meerdere disciplines tegelijk toepassen op dezelfde bron. Niet alleen lezen, maar ook begrijpen, structureren, kruisverwijzen, contextualiseren en valideren. Dat vereist niet één vaardigheid maar zes:

Paleografie
Het handschrift lezen

Archivistiek
Structureren in velden: naam, datum, groep, lot

Historisch onderzoek
Context herkennen: KP = verzetsgroep, Neuengamme = kamp

Data-analyse
Kruisverwijzen over 3.150 records

Fact-checking
Extern valideren tegen 7 online bronnen

Netwerkanalyse
Verbanden tussen personen zichtbaar maken

Geen van deze stappen is op zichzelf nieuw. Ze worden al decennia gedaan, door uitstekende professionals in hun eigen vakgebied. Maar ze worden normaal door verschillende mensen gedaan, in verschillende maanden, met verschillende tools — de paleograaf leest, de archivaris structureert, de historicus contextualiseert, de data-analist kruisverwijst. Ze werken zelden tegelijk aan hetzelfde materiaal, simpelweg omdat dat logistiek niet kan en financieel doorgaans niet haalbaar is.

Wat Agentic AI mogelijk maakt is die disciplines tegelijk toepassen, op hetzelfde materiaal, in dezelfde sessie. Niet omdat AI slimmer is dan de individuele specialist — dat is het niet — maar omdat het alle zes de stappen in één doorloop kan combineren op een schaal die voor een team van specialisten onhaalbaar is.

Ik paste dezelfde methode eerder toe bij genealogisch onderzoek naar Merovingische koningen, waar het simultaan kruisen van onomastiek, hagiografie, prosopografie en acht andere disciplines leidde tot hypotheses die de individuele vakgebieden niet hadden geformuleerd — niet omdat de specialisten het niet konden, maar omdat niemand in al die vakgebieden tegelijk stond. (Lees: AI als geniale genealoog)

Bij de verzetskaarten is het precies hetzelfde. De bouwstenen lagen er allemaal al — de kaarten, de bronnen, de expertise. Wat er niet was, was iemand of iets dat alle zes disciplines tegelijk kon toepassen op 3.150 kaarten in één nacht. Het verschil tussen transcriberen en informatiseren is niet een verschil in snelheid maar een verschil in categorie: één discipline versus zes disciplines tegelijk.

Daar komt bij dat de pipeline zichzelf verbetert naarmate hij meer kaarten verwerkt. Niet omdat het model leert in technische zin, maar omdat eerder getranscribeerde kaarten als context worden meegegeven — het model herkent handschriftpatronen, Groningse plaatsnamen en veelgebruikte afkortingen steeds beter doordat het de vorige kaarten al kent. Die techniek paste ik eerder toe bij de ontsluiting van het Zettelkasten-archief van Niklas Luhmann — 90.000 handgeschreven notitiekaarten van de beroemdste Duitse socioloog van de twintigste eeuw, waar een academisch team met vijf miljoen euro budget al tien jaar bezig is en op een derde zit. Technisch gezien is dit verzetsarchief het tweede project in twee weken tijd dat ik op deze manier ontsluit.

De kracht van emergente analyse-inzichten

De echte kracht zit niet in het lezen van één kaart — die zit in het lezen van alle kaarten tegelijk. Een archivaris die één kaart leest, ziet één verhaal. Maar een verrader die op vijf verschillende kaarten wordt genoemd, door vijf verschillende mensen, over een periode van twee maanden — dat patroon is volstrekt onzichtbaar als je één kaart tegelijk leest. Het wordt pas zichtbaar als je ze alle 3.150 naast elkaar legt.

En dat is precies wat hier is gebeurd. Geesje Bleeker verschijnt op vijf onafhankelijke kaarten — geen enkele kaart beschrijft haar als serieverrader, maar vijf kaarten samen wel. Elf kaarten noemen bedragen waartegen de SD mensen vrijliet, en geen enkele kaart beschrijft een "systeem," maar samen tekenen ze een informeel corruptiesysteem met tarieven. Tientallen kaarten noemen fragmenten van dezelfde route — Groningen, Scholtenhuis, Neuengamme, Lubecker Bocht — en geen enkele kaart beschrijft de volledige deportatieroute, maar samen tekenen ze hem.

Dit zijn wat je emergente inzichten zou kunnen noemen: ze bestaan niet op de individuele kaarten, ze ontstaan pas als je het hele archief als dataset behandelt. Geen mens kan 3.150 kaarten tegelijk in zijn hoofd houden. Een machine wel.

De foutdiscussie eerlijk voeren

De eerste reactie van de archiefwereld zal zijn: maar je weet niet of de transcriptie klopt. En dat is waar. De AI-transcriptie is niet onafhankelijk gevalideerd en er zitten ongetwijfeld fouten in, van verkeerd gelezen handschrift tot verkeerd geïnterpreteerde afkortingen en onjuist gekoppelde namen. Daar doe ik niet moeilijk over, want dat is een gegeven bij elke vorm van automatische verwerking.

Maar het is goed om te beseffen dat de impliciete aanname achter die kritiek is dat het alternatief een foutloze menselijke transcriptie zou zijn — en die bestaat niet. Ook menselijke transcriptie bevat fouten, interpretatie en inconsistenties, met als verschil dat menselijke transcriptie honderd keer zo lang duurt en honderd keer zo veel kost. De eerlijke vergelijking is daarom niet:

AI-transcriptie (met fouten) vs. perfecte menselijke transcriptie

maar:

AI-transcriptie (met fouten, nu beschikbaar) vs. geen transcriptie (twintig jaar lang)

De vraag is niet of dit perfect is, maar of het bruikbaar genoeg is om dingen te vinden die anders niet gevonden worden. Het antwoord staat op deze site — patronen die tachtig jaar onzichtbaar waren, verbanden die technisch niet te leggen waren, onderzoeksvragen die niemand kon stellen omdat de data niet doorzoekbaar was.

Het is ook goed om in ogenschouw te nemen dat fouten niet pas bij de AI beginnen. De kaarten zelf zijn jaren tot decennia na de oorlog geschreven, op basis van getuigenissen en herinneringen — niet door de verzetsstrijders zelf, maar door onderzoekers die achteraf reconstrueerden wat er was gebeurd. Herinneringen verschuiven, details vervagen, sommige dingen worden benadrukt en andere weggelaten. Dat is geen verwijt aan de makers van het archief, maar het betekent wel dat er in deze data drie foutbronnen zitten, niet één: de oorspronkelijke vastlegging, de selectie van wie überhaupt een kaart kreeg, en onze AI-lezing ervan. Van die drie is de AI-transcriptie de enige die je achteraf kunt controleren en corrigeren — en dat is precies wat we uitnodigen.

De fouten moeten gevonden en gecorrigeerd worden, en dat is de volgende stap — een stap die precies de expertise vereist die archivarissen en historici hebben. Maar die stap kan pas gezet worden nadat iemand de eerste heeft gezet.

Van ontsluiter naar valideerder

Dit verschuift de rol van het archief. Tot nu toe was het archief de poortwachter — alleen wat zij hadden ontsloten was vindbaar, en de rest bestond in theorie maar was in de praktijk onzichtbaar.

Als Agentic AI (niet te verwarren met chatbots en LLM's die flink onbetrouwbaar kunnen zijn) de eerste ontsluiting kan doen, snel, goedkoop, onperfect maar bruikbaar, dan verandert de rol van de professional. Niet verdwijnen, maar verschuiven: van wij lezen de kaarten en maken ze vindbaar naar wij valideren wat de machine heeft gelezen en corrigeren waar nodig.

Dat is geen ramp voor het vakgebied maar een wezenlijke verfijning ervan. De professional besteedt zijn tijd niet langer aan het overtypen van namen en datums, maar aan waar hij daadwerkelijk voor is opgeleid: het beoordelen van verbanden, het toetsen van hypotheses, het plaatsen van vondsten in hun historische context. Het ambacht wordt niet overbodig — het wordt eindelijk ingezet waarvoor het bedoeld is.

De uitnodiging

Dit project claimt geen definitieve antwoorden — het levert onderzoeksvragen. Elke hypothese op deze site is een open vraag die wacht op iemand met de kennis om hem te bevestigen, te weerleggen of te nuanceren. De inbox staat open.

Hoe schaalbaar is dit experiment?

3.150 kaarten is een relatief klein archief. Maar de methode die hier is gebruikt schaalt naar vrijwel elke collectie die als scan beschikbaar is. Het Nationaal Archief heeft miljoenen gedigitaliseerde pagina's, en bij het Stadsarchief Amsterdam, het NIOD en de regionale archieven liggen overal collecties waarvan de inhoud niet doorzoekbaar is — handgeschreven documenten, aktes, formulieren, kaarten en brieven die ooit zijn gefotografeerd en sindsdien wachten.

De technologie die hier is gebruikt, een Vision LLM dat handschrift leest en structureert, werkt in principe op al die collecties — niet perfect, maar goed genoeg om te beginnen. De kosten voor dit project waren een paar euro aan API-kosten en één nacht werk, niet van een archivaris maar van iemand die weet hoe je een API aanspreekt.

Dat betekent dat het bekende argument "we hebben niet genoeg geld en niet genoeg mensen" een wezenlijk ander gesprek wordt. De technologie is beschikbaar en de kosten zijn verwaarloosbaar geworden — de vraag is niet meer of we het kunnen, maar of we het op deze manier willen.

Waarom een amateur niet naar perfectie hoeft te streven

De archiefwereld heeft een cultuur van zorgvuldigheid, en terecht — je gaat niet lichtzinnig om met historische bronnen, elk woord telt en elke interpretatie moet verantwoord zijn. Maar die zorgvuldigheid heeft een keerzijde, want ze kan ook een reden worden om niets te doen. We wachten tot de technologie beter is, we wachten tot er budget is, we wachten tot er een protocol is. En ondertussen liggen de kaarten in de la, sterven de mensen die de verhalen nog kunnen bevestigen, en gaat kennis verloren die niet in het archief staat maar alleen nog in de hoofden van nabestaanden.

Dit project is niet perfect en het zit ongetwijfeld vol fouten die gevonden en gecorrigeerd moeten worden. Maar het bestaat, en omdat het bestaat kunnen mensen nu hun familienaam zoeken, kunnen onderzoekers patronen vinden die eerder onzichtbaar waren, en kunnen archivarissen beginnen met het valideren van wat de machine heeft gelezen. Iets dat bestaat met fouten is uiteindelijk bruikbaarder dan iets dat niet bestaat omdat het nog niet perfect genoeg was.

De verhalen op deze kaarten zijn tachtig jaar oud. De kaarten zelf zijn in de decennia daarna geschreven. Ze staan sinds 2004 als scan online. En ze zijn nu, in april 2026, voor zover wij weten voor het eerst doorzoekbaar, koppelbaar en telbaar. Ik ben oprecht benieuwd of er mensen in de archiefwereld zijn die hiermee aan de slag willen.

Dit experiment is een deelproject van de Pilot Informatieautonomie, een doorlopend laboratorium waar ik met een kleine groep gemotiveerde mensen, gesteund door een prachtige raad van advies, werk aan precies dit soort vragen — vragen die bij de overheid spelen en leven, en die we inzichtelijk en praktisch hanteerbaar proberen te maken. Als je bij de overheid werkt of aan de overheid gelieerd bent en dit soort experimenten wilt verkennen: sluit vooral aan.

De mogelijke implicaties voor de archiefwereld