Dansk

Webarkivering

Webarkivering

fra Wikipedia, den frie encyklopædi
Hop til navigation Hop til søgning

Webarkivering er indsamling og permanent arkivering af onlinepublikationer med det formål at give offentligheden og videnskaben et indblik i fortiden i fremtiden. Resultatet af processen er et webarkiv .

Den største internationale institution for webarkivering er Internet Archive i San Francisco (USA), som ser sig selv som arkivet for hele World Wide Web. Regeringsarkiver og biblioteker i mange lande gør en indsats for at beskytte netværksarven i deres område.

Fra 1987 definerede de tyske arkivlove arkivering af digitale dokumenter som en obligatorisk opgave for statsarkiverne, men implementeringen af ​​denne opgave er kun lige begyndt. I 2006 blev DNBG (den tyske nationalbibliotekslov) vedtaget, som udvidede det tyske nationalbiblioteks mandat til også at omfatte arkivering af websteder. Forbundsstaterne planlægger også at ændre deres lov om pligtaflevering i denne forstand, eller har allerede implementeret ændringen.

Arkivering af destinationer

Webarkivering forfølger målet om at kortlægge et defineret afsnit af webtilstedeværelsen på internettet på en systematisk måde. Til dette formål skal en samlet indsamlingspolitik, en udvælgelsesproces og hyppigheden af ​​arkivering være afklaret på forhånd.

En arkiveret hjemmeside bør bevares på lang sigt med alle dens multimediefunktioner ( HTML-kode , typografiark , JavaScript , billeder og video). Metadata såsom herkomst , anskaffelsestidspunkt, MIME-type og omfang af dataene bruges til efterfølgende beskrivelse, brug og bevaring . Metadataene sikrer ægtheden og integriteten af ​​det digitale arkivmateriale.

Efter overtagelsen skal der tages tekniske og juridiske forholdsregler for at sikre konstant offentlig tilgængelighed og for at forhindre efterfølgende ændringer i de arkiverede materialer. [1]

vilkår

oprindelige ressource
En original kilde, der i øjeblikket eksisterer eller burde eksistere på internettet, og for hvilken der kræves adgang til en tidligere tilstand. [2] [3]
minde
Et originalt kildeminde er en ressource, der indkapsler en kildes oprindelige tilstand på et defineret tidspunkt. [2] [3]
TimeGate
En TimeGate er en ressource, der ud fra en specificeret dato og tid finder det minde, der bedst svarer til denne tidsspecifikation. [2] [3]
TimeMap
Et TimeMap er en ressource, der returnerer en liste over alle erindringer, der nogensinde er blevet oprettet for den originale kilde. [2] [3]

udvælgelsesproces

uspecifik
I denne udvælgelsesproces bliver et helt domæne gradvist skrevet ind i et arkiv. Grundet det store hukommelsesbehov fungerer proceduren kun for mindre domæner (netarkivet.dk).
pluk liste
En liste over institutioner vil blive fastlagt på forhånd. Stabiliteten af ​​de URL'er, der er tilknyttet institutionerne, skal kontrolleres regelmæssigt.
Brug af adgangsstatistik
I fremtiden kan man tænke sig "intelligent" høst , som ud fra adgangstællinger arkiverer de dele af nettet (eller et udvalg), der har særligt høje adgangsrater.

erhvervelsesmetoder

Fjernhøst

Den mest almindelige arkiveringsmetode er at bruge en webcrawler . En webcrawler henter indholdet af et websted som en menneskelig bruger og skriver resultaterne til et arkivobjekt. Mere præcist betyder det rekursiv søgning på websider baseret på de links, der findes på dem, startende fra et bestemt startområde, som enten kan være en webside eller en liste over websider, der skal søges i. På grund af kvantitative begrænsninger, såsom varighed eller lagerplads, er forskellige begrænsninger (opsigelsesbetingelser) mulige med hensyn til dybde, domæne og de typer filer, der skal arkiveres.

I større projekter er evalueringen af ​​hjemmesider for URL-rangering af særlig betydning. I løbet af en crawl-proces kan der akkumuleres et stort antal webadresser, som derefter behandles enten i en liste ved hjælp af FIFO - metoden eller som en prioritetskø . I sidstnævnte tilfælde kan du forestille dig websiderne i en heap-struktur. Hver webside danner selv sin egen bunke , og hvert link, der findes på den til en anden webside, danner en underbunke, som repræsenterer et element i den foregående websides bunke. Dette har også den fordel, at i tilfælde af en overfyldt URL-liste, erstattes dem med den laveste prioritet med nye poster først.

Den oprindelige struktur på serveren kan dog kun sjældent gengives nøjagtigt i arkivet. For at kunne udelukke eventuelle tekniske problemer, der kan opstå forud for spejling, er det tilrådeligt at foretage en analyse af hjemmesiden på forhånd. Selvom dette i de fleste tilfælde fordobler datatrafikken, reducerer det den nødvendige arbejdstid markant i tilfælde af fejl. [4]

Eksempler på webcrawlere er:

Arkivering af det skjulte web

The Hidden Web eller Deep Web refererer til databaser, der ofte repræsenterer det faktiske indhold på en hjemmeside og kun udleveres efter anmodning fra en bruger. Som et resultat er nettet konstant i forandring, og det ser ud som om det var af uendelig størrelse. En grænseflade, som normalt er baseret på XML , er påkrævet for at overtage disse databaser . Værktøjerne DeepArc ( Bibliothèque Nationale de France ) og Xinq ( National Library of Australia ) er udviklet til sådan adgang.

Transaktionel arkivering

Denne procedure bruges til at arkivere resultaterne af en hjemmesidebrugsproces. Det er vigtigt for institutioner, der af juridiske årsager skal fremlægge bevis for deres brug. Forudsætningen er installation af et ekstra program på webserveren.

Webarkivering i Tyskland

På forbundsplan har det tyske nationalbibliotek (DNB) siden 2006 haft det lovpligtige mandat til webarkivering. Siden 2012 er hjemmesider blevet arkiveret tematisk og ved visse arrangementer, det vil sige selektivt og ikke fuldt ud. DNB samarbejder med en ekstern tjenesteudbyder. Derudover er alle DE-domæner blevet crawlet én gang indtil videre i 2014 . Adgang til webarkivet er hovedsageligt på læsesalene. [5]

Ud over DNB's webarkivering er der initiativer i forskellige delstater:

Der er også andre webarkiveringsinitiativer i Tyskland, for eksempel af partiforbundne fonde , SWR , Deutsche Post eller bioteknologi/farmaceutiske firmaet Abbvie .

Se også

konverteringer

weblinks

specificeringer

  1. Steffen Fritz: Omskrivning af historie. (PDF) med WARC-filer. januar 2016, arkiveret fra originalen den 9. november 2017 ; Hentet 9. november 2017 (engelsk).
  2. a b c d RfC 7089 HTTP-ramme for tidsbaseret adgang til ressourcetilstande – Memento
  3. a b c d Memento Guide: Introduktion. Hentet 5. oktober 2018 (engelsk).
  4. Steffen Fritz: Praksisrapport: Metoder til evaluering af webobjekters arkiverbarhed I: ABI Technik nr. 2, 2015, s. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: Arkivering af det tyske internet? Mellem selektiv tilgang og .de domænegennemgang . Tysk Nationalbibliotek, 26. juni 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Om status for webarkivering i Baden-Württemberg . I: Bibliotekstjeneste . tape 51 , nr. 6 , 1. juni 2017, ISSN  2194-9646 , s. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [tilganget 24. marts 2020]).
  7. Tobias Beinert: Webarkivering på det bayerske statsbibliotek . I: Bibliotekstjeneste . tape 51 , nr. 6 , 1. juni 2017, ISSN  2194-9646 , s. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [tilganget 24. marts 2020]).
  8. Webarkivering af arbejdsgange i langtidsarkivering på det bayerske statsbibliotek | BABS. Hentet 24. marts 2020 .
  9. Edoweb: Rheinland-Pfalz arkivserver til elektroniske dokumenter og websteder. Hentet 24. marts 2020 .