KB maakt kopietje van Nederlands internet


Capricorn petaboxen

Een paar jaar later dan gepland, begint de Koninklijke Bibliotheek in Den Haag binnenkort dan toch met het kopieren van het Nederlandse world wide web. Het gaat overigens niet om het hele Nederlandse www, maar delen ervan. Met tussenpozen worden er fragmenten gearchiveerd.

De KB maakt via een persbericht bekend:

(…) Het doel van het project is het ontwikkelen van een methode om Nederlandse websites te archiveren en voor altijd toegankelijk te houden. Het elektronisch depot (e-Depot) van de KB [gemaakt met IBM, EB] vormt de basis voor deze ontwikkeling. (…) De gemiddelde levensduur van een website is niet meer dan 75 dagen. (…) Het Nederlandse web bevat naar schatting 1,4 miljoen actieve websites en zeker zestig miljoen webpagina’s. (…) Om te beginnen wil de KB ervaring opdoen met het selecteren, verzamelen, beschrijven, duurzaam opslaan en toegankelijk maken van websites uit het Nederlandse domein, om zo inzicht te krijgen in de technische, organisatorische, financiĆ«le en juridische aspecten van webarchivering. Op basis van deze ervaringen wordt vanaf 2007 een selectie van Nederlandse websites duurzaam bewaard en permanent toegankelijk gehouden in een operationeel webarchief. (…)

Zoals het hier staat, zullen alle Nederlandse sites zonder een .nl-domeinextensie niet geindexeerd worden. R-win.com zal dus enkel door Archive.org bewaard worden. Ook geen slechte bron van naslag.

De KB is niet de eerste nationale instelling die een kopie van zijn landendomein voor toekomstig onderzoek vast wil leggen. De Franse nationale bibliotheek liet ooit een kopietje van het .FR-domein maken.

De Fransen ontwikkelden de kopieertechnologie echter niet zelf, maar huurden gespecialiseerde hulp in. Alexa.com, opgericht door Brewster Kahle en dochterbedrijf van Amazon.com, bouwde afgelopen jaren behoorlijk wat kennis op over het backup’en en analyseren van websites. Die kennis wordt nu geexploiteerd via het bedrijf Capricorn Technologies, leverancier van zogeheten petaboxen. Dat zijn dozen met veel opslagcapaciteit.

Capricorn draaide de kopietjes van .FR en zette de petaboxen op het vliegtuign naar Parijs.

Wat zouden de afwegingen van de KB geweest zijn om niet de petaboxen te gebruiken, maar het eigen e-Depot?

Mwah, vind dit nog niet heel boeiend. Ten eerste gaat het om een onderzoek naar de technische en juridische haalbaarheid. Twee: de KB heeft nog geen selectiecriteria genoemd in het persbericht, terwijl de selectie m.i. het meest interessante aspect van internetpagina-archiveren is. Drie: gaan ze nou echt per website steggelen (Huib?) over auteurs-, databank- en andere rechten? If so, kan ‘t nog wel even duren voor de KB een beetje archief verzameld heeft.
Tenslotte: godskolere wat zijn ze daar laat mee.