← Terug naar Life Lens System

Epistemologische Extractie

20 april 2026 — Read in English

Bestaande extractiesystemen vinden informatie in tekst en geven het een confidence score: 0,87. Dat getal zegt niets. Is het 87% omdat de OCR slecht is? Omdat de naam ambigu is? Omdat het patroon zwak matcht?

Dit systeem doet iets anders. Het extraheert informatie en legt tegelijkertijd uit hoe zeker het is en waarom.

Het probleem

Historische archieven zijn gescand met onvolmaakte OCR. Ze zijn geschreven in drie talen. Ze bevatten 11 miljoen woorden verdeeld over 28.461 tekstblokken. Niemand heeft tijd om dat allemaal te lezen. Dus bouw je een systeem dat automatisch namen, datums, locaties en acties vindt.

Maar als je niet kunt zeggen hoe betrouwbaar elke vondst is, is het systeem onbruikbaar voor wetenschap. Een historicus moet weten: is deze datum zeker? Is deze naam mogelijk een OCR-fout? Is deze toeschrijving gebaseerd op de tekst zelf of op een afleiding?

De methode

Elke extractie wordt geclassificeerd op een zekerheidslaag uit het 12-lagen model (Synaptische Architectuur):

LaagBetekenisVoorbeeldZekerheid
L2Het staat er letterlijk"6 maart 1942"100%
L3Registratieconventie"7.11.44" uit MI5 (altijd dag.maand)99%
L6Patroonherkenning"Nov 41", "in maart 1942"95-98%
L7Vage aanduiding"begin maart", "voorjaar 1942"85-90%

De laag zegt niet alleen hoe zeker, maar ook waarom. En hoe te verbeteren: een L7-datum kan L2 worden als een andere bron dezelfde gebeurtenis met een exacte datum bevestigt. Cross-bron bevestiging promoveert de zekerheidslaag.

Zes risico's, zes oplossingen

1. De tabel is een momentopname

Elke patroonverbetering maakt de eerdere extractie onvolledig. Oplossing: 43 seconden herberekening op het volledige corpus. Geen versie-administratie nodig op deze schaal.

2. Patronen missen wat ze niet kennen

56 patroontypen dekken zes dimensies. Een zevende dimensie (ironie, causale verbanden) is onzichtbaar. Oplossing: patronen toevoegen wanneer een vraag iets nieuws vereist.

3. Datums staan in andere zinnen dan acties

86% van de datums staat niet in dezelfde zin als de actie die ze dateren. Oplossing: chunk-brede datumkoppeling met afstandsmeting. Bracht datumdekking van 5% naar 60%.

4. Bronnen delen blinde vlekken

Als alle bronnen dezelfde persoon weglaten, is die onzichtbaar. Oplossing: bronnen toevoegen uit verschillende perspectieven. Russische archieven vullen Westerse blinde vlekken.

5. Gewone woorden als persoonsnaam

0,8% van de canonical namen is ambigu ("Burgers" = persoon of inwoners?). Oplossing: context-check. Titel of rang ervoor = persoon. Lidwoord ervoor = gewoon woord.

6. Impliciete relaties binnen een chunk

"Lauwers, gearresteerd, maart '42, Den Haag" in een chunk bewijst niet dat die vier bij elkaar horen. Oplossing gelaagd: afstandsmeting (90% → 95%), werkwoord-richting (95% → 97%), opsomming-detectie (97% → 99%), LLM-batch voor 0,08% restant (99,92%).

Het bewijs: de arrestatie van Lauwers

53 chunks uit 4 bronnen (De Jong, MI5, Parlementaire Enquete, Mitrokhin-archief) beschrijven de arrestatie van marconist Lauwers in 1942. Het systeem reconstrueert:

Betrokken personen (alle bronnen samen): Giskes, Schreieder, Ridderhof, Taconis, Kup, Bodens

Locaties: Den Haag, Scheveningen, Driebergen

Datum: 6 maart 1942 — 7 onafhankelijke vermeldingen, 2 bronnen, zekerheidslaag L2

MI5 voegt twee personen toe die De Jong nergens noemt: Kup en Bodens. Dat is geen anekdote — opgeschaald naar het volledige corpus blijken er 1.174 personen in MI5-dossiers te staan die het 30-delige standaardwerk weglaat.

Vijf contradictie's gevonden

Het systeem vond automatisch vijf gevallen waar De Jongs datums conflicteren met primaire bronnen:

PersoonActieDe JongAndere bronVerschil
Christiansenbenoeming19 juli 1940 (L2)Enquete: 25 juni 1940 (L2)24 dagen, twee harde datums
Ferwerdabenoemingsept '44 (L6)Enquete: 30 aug 1944 (L2)~1 dag
Sevensterbenoemingzomer '40 (L7)Enquete: herfst '40 (L7)1-3 maanden, twee vage datums
Sikorskidoodnov '44 (L3)Enquete: maart '45 (L6)4 maanden
Wehnerdoodmaart '45 (L3)MI5: okt '44 (L6)5 maanden

De Christiansen-casus is het sterkst: twee L2-datums (hard bewijs) die 24 dagen botsen over dezelfde benoeming. Dat is een toetsbare historische discrepantie.

De cijfers

MetingWaarde
Patroontypen56 (6 domein-plugins)
Totaal extracties132.122
Datums gevonden51.446 (met zekerheidslagen)
Personen herkend96% (33.783 canonical)
Scantijd43 seconden op 11,4M woorden
Oplosbaar zonder LLM99,92%
Contradictie's gevonden5 (na filtering 26 vals-positieven)
Blinde vlekken gemeten1.174 personen die MI5 kent maar De Jong weglaat

Wat dit anders maakt

Elke bevinding is:

Het systeem zegt niet "Lauwers werd waarschijnlijk in maart gearresteerd." Het zegt: "7 onafhankelijke vermeldingen uit 2 bronnen bevestigen 6 maart 1942, zekerheidslaag 2, hier zijn de 7 zinnen."

Onderdeel van het Life Lens System. Gebouwd met Claude Code op 20 april 2026.