Nettarkivering er innsamling og permanent arkivering av nettpublikasjoner med det formål å gi publikum og vitenskapen et glimt inn i fortiden i fremtiden. Resultatet av prosessen er et nettarkiv .
Den største internasjonale institusjonen for nettarkivering er Internet Archive i San Francisco (USA), som ser på seg selv som arkivet for hele World Wide Web. Offentlige arkiver og biblioteker i mange land gjør en innsats for å ivareta nettverksarven i sitt område.
Fra 1987 definerte de tyske arkivlovene arkivering av digitale dokumenter som en obligatorisk oppgave for statsarkivene, men implementeringen av denne oppgaven er bare så vidt i gang. I 2006 ble DNBG (den tyske nasjonalbibliotekloven) vedtatt, og utvidet det tyske nasjonalbibliotekets mandat til å omfatte arkivering av nettsteder. Forbundsstatene planlegger også å endre lover om pliktig depositum i denne forstand, eller har allerede implementert endringen.
Nettarkivering har som mål å kartlegge en definert del av netttilstedeværelsen på Internett på en systematisk måte. Til dette formålet må en helhetlig innsamlingspolicy, en utvelgelsesprosess og arkiveringsfrekvens være avklart på forhånd.
Et arkivert nettsted bør bevares på lang sikt med alle dets multimediefunksjoner ( HTML-kode , stilark , JavaScript , bilder og video). Metadata som herkomst , tidspunkt for anskaffelse, MIME-type og omfang av dataene brukes for etterfølgende beskrivelse, bruk og bevaring . Metadataene sikrer ektheten og integriteten til det digitale arkivmaterialet.
Etter overtakelsen må det tas tekniske og juridiske forholdsregler for å garantere konstant offentlig tilgjengelighet og for å forhindre senere endringer i det arkiverte materialet. [1]
Den vanligste arkiveringsmetoden er å bruke en webcrawler . En webcrawler henter innholdet på et nettsted som en menneskelig bruker og skriver resultatene til et arkivobjekt. Mer presist betyr dette rekursivt søk på nettsider basert på lenkene som finnes på dem, med utgangspunkt i et bestemt startområde, som enten kan være en nettside eller en liste over nettsider som skal søkes i. På grunn av kvantitative begrensninger, som varighet eller lagringsplass, er ulike begrensninger (termineringsbetingelser) mulig med hensyn til dybde, domene og hvilke typer filer som skal arkiveres.
I større prosjekter er evalueringen av nettsider for URL-rangering av særlig betydning. I løpet av en gjennomsøkingsprosess kan det samle seg et stort antall nettadresser, som deretter behandles enten i en liste ved hjelp av FIFO - metoden eller som en prioritert kø . I sistnevnte tilfelle kan du forestille deg nettsidene i en haugstruktur. Hver nettside danner selv sin egen haug , og hver lenke som finnes i den til en annen nettside danner en underhaug, som representerer et element i den forrige nettsidens haug. Dette har også den fordelen at i tilfelle en overfylt URL-liste, erstattes de med lavest prioritet med nye oppføringer først.
Den opprinnelige strukturen på serveren kan imidlertid bare sjelden reproduseres nøyaktig i arkivet. For å kunne utelukke eventuelle tekniske problemer som kan oppstå i forkant av speiling, er det lurt å gjennomføre en analyse av nettsiden på forhånd. Selv om dette dobler datatrafikken i de fleste tilfeller, reduserer det arbeidstiden betraktelig ved feil. [4]
Eksempler på søkeroboter er:
The Hidden Web eller Deep Web refererer til databaser som ofte representerer det faktiske innholdet på en nettside og kun gis ut på forespørsel fra en bruker. Som et resultat er nettet i konstant endring og det ser ut som om det var av uendelig størrelse. Et grensesnitt, som vanligvis er basert på XML , kreves for å overta disse databasene . Verktøyene DeepArc ( Bibliothèque Nationale de France ) og Xinq ( National Library of Australia ) er utviklet for slik tilgang.
Denne prosedyren brukes til å arkivere resultatene av en prosess for bruk av nettstedet. Det er viktig for institusjoner som må dokumentere bruken av juridiske årsaker. Forutsetningen er installasjon av et tilleggsprogram på webserveren.
På føderalt nivå har det tyske nasjonalbiblioteket (DNB) siden 2006 hatt det lovpålagte mandatet for nettarkivering. Siden 2012 har nettsider blitt arkivert tematisk og ved enkelte arrangementer, det vil si selektivt og ikke i sin helhet. DNB samarbeider med en ekstern tjenesteleverandør. I tillegg har alle DE-domener blitt gjennomsøkt én gang så langt i 2014 . Tilgang til nettarkivet er i hovedsak på lesesalene. [5]
I tillegg til nettarkiveringen til DNB, er det initiativer i ulike føderale stater:
Det finnes også andre nettarkiveringsinitiativer i Tyskland, for eksempel av partitilknyttede stiftelser , SWR , Deutsche Post eller bioteknologi-/farmasøytisk firma Abbvie .