Webbarkivering är insamling och permanent arkivering av onlinepublikationer i syfte att erbjuda allmänheten och vetenskapen en inblick i det förflutna i framtiden. Resultatet av processen är ett webbarkiv .
Den största internationella institutionen för webbarkivering är Internet Archive i San Francisco (USA), som ser sig som arkivet för hela World Wide Web. Regeringsarkiv och bibliotek i många länder gör ansträngningar för att värna om nätverksarvet i sitt område.
Från 1987 definierade de tyska arkivlagarna arkivering av digitala dokument som en obligatorisk uppgift för de statliga arkiven, men genomförandet av denna uppgift har bara börjat. 2006 antogs DNBG (den tyska nationalbibliotekslagen) som utökade det tyska nationalbibliotekets mandat till att omfatta arkivering av webbplatser. De federala staterna planerar också att ändra sina lagar om pliktdeposition i denna mening, eller har redan genomfört förändringen.
Webbarkivering syftar till att kartlägga en definierad del av webbnärvaron på Internet på ett systematiskt sätt. För detta ändamål måste en övergripande insamlingspolicy, en urvalsprocess och arkiveringsfrekvensen vara klarlagd i förväg.
En arkiverad webbplats bör bevaras på lång sikt med alla dess multimediafunktioner ( HTML-kod , stilmallar , JavaScript , bilder och video). Metadata såsom härkomst , tidpunkt för förvärv, MIME-typ och omfattning av data används för efterföljande beskrivning, användning och bevarande . Metadata säkerställer det digitala arkivmaterialets autenticitet och integritet .
Efter övertagandet måste tekniska och juridiska försiktighetsåtgärder vidtas för att garantera ständig allmän tillgänglighet och för att förhindra efterföljande ändringar av det arkiverade materialet. [1]
Den vanligaste arkiveringsmetoden är att använda en sökrobot . En sökrobot hämtar innehållet på en webbplats som en mänsklig användare och skriver resultaten till ett arkivobjekt. Mer exakt innebär detta att man rekursivt söker på webbsidor baserat på länkarna som finns på dem, utgående från ett visst startområde, som antingen kan vara en webbsida eller en lista över webbsidor som ska sökas. På grund av kvantitativa begränsningar, såsom varaktighet eller lagringsutrymme, är olika restriktioner (uppsägningsvillkor) möjliga med avseende på djup, domän och vilka typer av filer som ska arkiveras.
I större projekt är utvärderingen av webbplatser för URL-rankning av särskild vikt. Under en genomsökningsprocess kan ett stort antal webbadresser ackumuleras, som sedan bearbetas antingen i en lista med FIFO- metoden eller som en prioritetskö . I det senare fallet kan du föreställa dig webbsidorna i en högstruktur. Varje webbsida bildar själv sin egen hög , och varje länk som hittas på den till en annan webbsida bildar en underhög, som representerar ett element i föregående webbsidas hög. Detta har också fördelen att i händelse av en överfull URL-lista ersätts de med lägst prioritet med nya poster först.
Den ursprungliga strukturen på servern kan dock endast sällan återges exakt i arkivet. För att kunna utesluta eventuella tekniska problem som kan uppstå inför spegling är det lämpligt att göra en analys av hemsidan i förväg. Även om detta fördubblar datatrafiken i de flesta fall, minskar det avsevärt arbetstiden som krävs vid ett fel. [4]
Exempel på sökrobotar är:
The Hidden Web eller Deep Web hänvisar till databaser som ofta representerar det faktiska innehållet på en webbplats och endast ges ut på begäran av en användare. Som ett resultat förändras nätet ständigt och det verkar som om det vore av oändlig storlek. Ett gränssnitt, som vanligtvis är baserat på XML , krävs för att ta över dessa databaser . Verktygen DeepArc ( Bibliothèque Nationale de France ) och Xinq ( National Library of Australia ) har utvecklats för sådan åtkomst.
Denna procedur används för att arkivera resultaten av en webbplatsanvändningsprocess. Det är viktigt för institutioner som av juridiska skäl måste bevisa sin användning. Förutsättningen är installation av ytterligare ett program på webbservern.
På federal nivå har det tyska nationalbiblioteket (DNB) sedan 2006 det lagstadgade mandatet för webbarkivering. Sedan 2012 har webbplatser arkiverats tematiskt och vid vissa evenemang, det vill säga selektivt och inte i sin helhet. DNB arbetar med en extern tjänsteleverantör. Dessutom har alla DE-domäner genomsökts en gång hittills under 2014 . Tillgång till webbarkivet sker främst i läsesalarna. [5]
Utöver webbarkiveringen av DNB finns det initiativ i olika federala stater:
Det finns även andra initiativ för webbarkivering i Tyskland, till exempel av partianslutna stiftelser , SWR , Deutsche Post eller bioteknik-/läkemedelsföretaget Abbvie .