Webarkivering er indsamling og permanent arkivering af onlinepublikationer med det formål at give offentligheden og videnskaben et indblik i fortiden i fremtiden. Resultatet af processen er et webarkiv .
Den største internationale institution for webarkivering er Internet Archive i San Francisco (USA), som ser sig selv som arkivet for hele World Wide Web. Regeringsarkiver og biblioteker i mange lande gør en indsats for at beskytte netværksarven i deres område.
Fra 1987 definerede de tyske arkivlove arkivering af digitale dokumenter som en obligatorisk opgave for statsarkiverne, men implementeringen af denne opgave er kun lige begyndt. I 2006 blev DNBG (den tyske nationalbibliotekslov) vedtaget, som udvidede det tyske nationalbiblioteks mandat til også at omfatte arkivering af websteder. Forbundsstaterne planlægger også at ændre deres lov om pligtaflevering i denne forstand, eller har allerede implementeret ændringen.
Webarkivering forfølger målet om at kortlægge et defineret afsnit af webtilstedeværelsen på internettet på en systematisk måde. Til dette formål skal en samlet indsamlingspolitik, en udvælgelsesproces og hyppigheden af arkivering være afklaret på forhånd.
En arkiveret hjemmeside bør bevares på lang sigt med alle dens multimediefunktioner ( HTML-kode , typografiark , JavaScript , billeder og video). Metadata såsom herkomst , anskaffelsestidspunkt, MIME-type og omfang af dataene bruges til efterfølgende beskrivelse, brug og bevaring . Metadataene sikrer ægtheden og integriteten af det digitale arkivmateriale.
Efter overtagelsen skal der tages tekniske og juridiske forholdsregler for at sikre konstant offentlig tilgængelighed og for at forhindre efterfølgende ændringer i de arkiverede materialer. [1]
Den mest almindelige arkiveringsmetode er at bruge en webcrawler . En webcrawler henter indholdet af et websted som en menneskelig bruger og skriver resultaterne til et arkivobjekt. Mere præcist betyder det rekursiv søgning på websider baseret på de links, der findes på dem, startende fra et bestemt startområde, som enten kan være en webside eller en liste over websider, der skal søges i. På grund af kvantitative begrænsninger, såsom varighed eller lagerplads, er forskellige begrænsninger (opsigelsesbetingelser) mulige med hensyn til dybde, domæne og de typer filer, der skal arkiveres.
I større projekter er evalueringen af hjemmesider for URL-rangering af særlig betydning. I løbet af en crawl-proces kan der akkumuleres et stort antal webadresser, som derefter behandles enten i en liste ved hjælp af FIFO - metoden eller som en prioritetskø . I sidstnævnte tilfælde kan du forestille dig websiderne i en heap-struktur. Hver webside danner selv sin egen bunke , og hvert link, der findes på den til en anden webside, danner en underbunke, som repræsenterer et element i den foregående websides bunke. Dette har også den fordel, at i tilfælde af en overfyldt URL-liste, erstattes dem med den laveste prioritet med nye poster først.
Den oprindelige struktur på serveren kan dog kun sjældent gengives nøjagtigt i arkivet. For at kunne udelukke eventuelle tekniske problemer, der kan opstå forud for spejling, er det tilrådeligt at foretage en analyse af hjemmesiden på forhånd. Selvom dette i de fleste tilfælde fordobler datatrafikken, reducerer det den nødvendige arbejdstid markant i tilfælde af fejl. [4]
Eksempler på webcrawlere er:
The Hidden Web eller Deep Web refererer til databaser, der ofte repræsenterer det faktiske indhold på en hjemmeside og kun udleveres efter anmodning fra en bruger. Som et resultat er nettet konstant i forandring, og det ser ud som om det var af uendelig størrelse. En grænseflade, som normalt er baseret på XML , er påkrævet for at overtage disse databaser . Værktøjerne DeepArc ( Bibliothèque Nationale de France ) og Xinq ( National Library of Australia ) er udviklet til sådan adgang.
Denne procedure bruges til at arkivere resultaterne af en hjemmesidebrugsproces. Det er vigtigt for institutioner, der af juridiske årsager skal fremlægge bevis for deres brug. Forudsætningen er installation af et ekstra program på webserveren.
På forbundsplan har det tyske nationalbibliotek (DNB) siden 2006 haft det lovpligtige mandat til webarkivering. Siden 2012 er hjemmesider blevet arkiveret tematisk og ved visse arrangementer, det vil sige selektivt og ikke fuldt ud. DNB samarbejder med en ekstern tjenesteudbyder. Derudover er alle DE-domæner blevet crawlet én gang indtil videre i 2014 . Adgang til webarkivet er hovedsageligt på læsesalene. [5]
Ud over DNB's webarkivering er der initiativer i forskellige delstater:
Der er også andre webarkiveringsinitiativer i Tyskland, for eksempel af partiforbundne fonde , SWR , Deutsche Post eller bioteknologi/farmaceutiske firmaet Abbvie .