20 april 2026 — Read in English
Bestaande extractiesystemen vinden informatie in tekst en geven het een confidence score: 0,87. Dat getal zegt niets. Is het 87% omdat de OCR slecht is? Omdat de naam ambigu is? Omdat het patroon zwak matcht?
Dit systeem doet iets anders. Het extraheert informatie en legt tegelijkertijd uit hoe zeker het is en waarom.
Historische archieven zijn gescand met onvolmaakte OCR. Ze zijn geschreven in drie talen. Ze bevatten 11 miljoen woorden verdeeld over 28.461 tekstblokken. Niemand heeft tijd om dat allemaal te lezen. Dus bouw je een systeem dat automatisch namen, datums, locaties en acties vindt.
Maar als je niet kunt zeggen hoe betrouwbaar elke vondst is, is het systeem onbruikbaar voor wetenschap. Een historicus moet weten: is deze datum zeker? Is deze naam mogelijk een OCR-fout? Is deze toeschrijving gebaseerd op de tekst zelf of op een afleiding?
Elke extractie wordt geclassificeerd op een zekerheidslaag uit het 12-lagen model (Synaptische Architectuur):
| Laag | Betekenis | Voorbeeld | Zekerheid |
|---|---|---|---|
| L2 | Het staat er letterlijk | "6 maart 1942" | 100% |
| L3 | Registratieconventie | "7.11.44" uit MI5 (altijd dag.maand) | 99% |
| L6 | Patroonherkenning | "Nov 41", "in maart 1942" | 95-98% |
| L7 | Vage aanduiding | "begin maart", "voorjaar 1942" | 85-90% |
De laag zegt niet alleen hoe zeker, maar ook waarom. En hoe te verbeteren: een L7-datum kan L2 worden als een andere bron dezelfde gebeurtenis met een exacte datum bevestigt. Cross-bron bevestiging promoveert de zekerheidslaag.
Elke patroonverbetering maakt de eerdere extractie onvolledig. Oplossing: 43 seconden herberekening op het volledige corpus. Geen versie-administratie nodig op deze schaal.
56 patroontypen dekken zes dimensies. Een zevende dimensie (ironie, causale verbanden) is onzichtbaar. Oplossing: patronen toevoegen wanneer een vraag iets nieuws vereist.
86% van de datums staat niet in dezelfde zin als de actie die ze dateren. Oplossing: chunk-brede datumkoppeling met afstandsmeting. Bracht datumdekking van 5% naar 60%.
Als alle bronnen dezelfde persoon weglaten, is die onzichtbaar. Oplossing: bronnen toevoegen uit verschillende perspectieven. Russische archieven vullen Westerse blinde vlekken.
0,8% van de canonical namen is ambigu ("Burgers" = persoon of inwoners?). Oplossing: context-check. Titel of rang ervoor = persoon. Lidwoord ervoor = gewoon woord.
"Lauwers, gearresteerd, maart '42, Den Haag" in een chunk bewijst niet dat die vier bij elkaar horen. Oplossing gelaagd: afstandsmeting (90% → 95%), werkwoord-richting (95% → 97%), opsomming-detectie (97% → 99%), LLM-batch voor 0,08% restant (99,92%).
53 chunks uit 4 bronnen (De Jong, MI5, Parlementaire Enquete, Mitrokhin-archief) beschrijven de arrestatie van marconist Lauwers in 1942. Het systeem reconstrueert:
Betrokken personen (alle bronnen samen): Giskes, Schreieder, Ridderhof, Taconis, Kup, Bodens
Locaties: Den Haag, Scheveningen, Driebergen
Datum: 6 maart 1942 — 7 onafhankelijke vermeldingen, 2 bronnen, zekerheidslaag L2
MI5 voegt twee personen toe die De Jong nergens noemt: Kup en Bodens. Dat is geen anekdote — opgeschaald naar het volledige corpus blijken er 1.174 personen in MI5-dossiers te staan die het 30-delige standaardwerk weglaat.
Het systeem vond automatisch vijf gevallen waar De Jongs datums conflicteren met primaire bronnen:
| Persoon | Actie | De Jong | Andere bron | Verschil |
|---|---|---|---|---|
| Christiansen | benoeming | 19 juli 1940 (L2) | Enquete: 25 juni 1940 (L2) | 24 dagen, twee harde datums |
| Ferwerda | benoeming | sept '44 (L6) | Enquete: 30 aug 1944 (L2) | ~1 dag |
| Sevenster | benoeming | zomer '40 (L7) | Enquete: herfst '40 (L7) | 1-3 maanden, twee vage datums |
| Sikorski | dood | nov '44 (L3) | Enquete: maart '45 (L6) | 4 maanden |
| Wehner | dood | maart '45 (L3) | MI5: okt '44 (L6) | 5 maanden |
De Christiansen-casus is het sterkst: twee L2-datums (hard bewijs) die 24 dagen botsen over dezelfde benoeming. Dat is een toetsbare historische discrepantie.
| Meting | Waarde |
|---|---|
| Patroontypen | 56 (6 domein-plugins) |
| Totaal extracties | 132.122 |
| Datums gevonden | 51.446 (met zekerheidslagen) |
| Personen herkend | 96% (33.783 canonical) |
| Scantijd | 43 seconden op 11,4M woorden |
| Oplosbaar zonder LLM | 99,92% |
| Contradictie's gevonden | 5 (na filtering 26 vals-positieven) |
| Blinde vlekken gemeten | 1.174 personen die MI5 kent maar De Jong weglaat |
Elke bevinding is:
Het systeem zegt niet "Lauwers werd waarschijnlijk in maart gearresteerd." Het zegt: "7 onafhankelijke vermeldingen uit 2 bronnen bevestigen 6 maart 1942, zekerheidslaag 2, hier zijn de 7 zinnen."
Onderdeel van het Life Lens System. Gebouwd met Claude Code op 20 april 2026.