Norsk (bokmål)

Nettarkivering

Nettarkivering

fra Wikipedia, den frie encyklopedi
Hopp til navigasjon Hopp til søk

Nettarkivering er innsamling og permanent arkivering av nettpublikasjoner med det formål å gi publikum og vitenskapen et glimt inn i fortiden i fremtiden. Resultatet av prosessen er et nettarkiv .

Den største internasjonale institusjonen for nettarkivering er Internet Archive i San Francisco (USA), som ser på seg selv som arkivet for hele World Wide Web. Offentlige arkiver og biblioteker i mange land gjør en innsats for å ivareta nettverksarven i sitt område.

Fra 1987 definerte de tyske arkivlovene arkivering av digitale dokumenter som en obligatorisk oppgave for statsarkivene, men implementeringen av denne oppgaven er bare så vidt i gang. I 2006 ble DNBG (den tyske nasjonalbibliotekloven) vedtatt, og utvidet det tyske nasjonalbibliotekets mandat til å omfatte arkivering av nettsteder. Forbundsstatene planlegger også å endre lover om pliktig depositum i denne forstand, eller har allerede implementert endringen.

Arkivering av destinasjoner

Nettarkivering har som mål å kartlegge en definert del av netttilstedeværelsen på Internett på en systematisk måte. Til dette formålet må en helhetlig innsamlingspolicy, en utvelgelsesprosess og arkiveringsfrekvens være avklart på forhånd.

Et arkivert nettsted bør bevares på lang sikt med alle dets multimediefunksjoner ( HTML-kode , stilark , JavaScript , bilder og video). Metadata som herkomst , tidspunkt for anskaffelse, MIME-type og omfang av dataene brukes for etterfølgende beskrivelse, bruk og bevaring . Metadataene sikrer ektheten og integriteten til det digitale arkivmaterialet.

Etter overtakelsen må det tas tekniske og juridiske forholdsregler for å garantere konstant offentlig tilgjengelighet og for å forhindre senere endringer i det arkiverte materialet. [1]

vilkår

opprinnelig ressurs
En originalkilde som for øyeblikket eksisterer eller burde eksistere på Internett og som det kreves tilgang til en tidligere tilstand for. [2] [3]
minne
Et originalt kildeminne er en ressurs som innkapsler den opprinnelige tilstanden til en kilde på et definert tidspunkt. [2] [3]
TimeGate
En TimeGate er en ressurs som, basert på en spesifisert dato og klokkeslett, finner det minnet som best samsvarer med denne tidsspesifikasjonen. [2] [3]
TimeMap
Et TimeMap er en ressurs som returnerer en liste over alle minner som noen gang har blitt opprettet for den opprinnelige kilden. [2] [3]

utvelgelsesprosess

uspesifikke
I denne utvelgelsesprosessen blir et helt domene gradvis skrevet inn i et arkiv. På grunn av det store minnebehovet fungerer prosedyren kun for mindre domener (netarkivet.dk).
plukkliste
En liste over institusjoner vil bli fastsatt på forhånd. Stabiliteten til URL-ene knyttet til institusjonene må kontrolleres regelmessig.
Bruk av tilgangsstatistikk
I fremtiden kan det tenkes «intelligent» høsting , som basert på tilgangstall arkiverer de delene av nettet (eller et utvalg) som har spesielt høye tilgangsrater.

anskaffelsesmetoder

Fjernhøsting

Den vanligste arkiveringsmetoden er å bruke en webcrawler . En webcrawler henter innholdet på et nettsted som en menneskelig bruker og skriver resultatene til et arkivobjekt. Mer presist betyr dette rekursivt søk på nettsider basert på lenkene som finnes på dem, med utgangspunkt i et bestemt startområde, som enten kan være en nettside eller en liste over nettsider som skal søkes i. På grunn av kvantitative begrensninger, som varighet eller lagringsplass, er ulike begrensninger (termineringsbetingelser) mulig med hensyn til dybde, domene og hvilke typer filer som skal arkiveres.

I større prosjekter er evalueringen av nettsider for URL-rangering av særlig betydning. I løpet av en gjennomsøkingsprosess kan det samle seg et stort antall nettadresser, som deretter behandles enten i en liste ved hjelp av FIFO - metoden eller som en prioritert kø . I sistnevnte tilfelle kan du forestille deg nettsidene i en haugstruktur. Hver nettside danner selv sin egen haug , og hver lenke som finnes i den til en annen nettside danner en underhaug, som representerer et element i den forrige nettsidens haug. Dette har også den fordelen at i tilfelle en overfylt URL-liste, erstattes de med lavest prioritet med nye oppføringer først.

Den opprinnelige strukturen på serveren kan imidlertid bare sjelden reproduseres nøyaktig i arkivet. For å kunne utelukke eventuelle tekniske problemer som kan oppstå i forkant av speiling, er det lurt å gjennomføre en analyse av nettsiden på forhånd. Selv om dette dobler datatrafikken i de fleste tilfeller, reduserer det arbeidstiden betraktelig ved feil. [4]

Eksempler på søkeroboter er:

Arkivering av det skjulte nettet

The Hidden Web eller Deep Web refererer til databaser som ofte representerer det faktiske innholdet på en nettside og kun gis ut på forespørsel fra en bruker. Som et resultat er nettet i konstant endring og det ser ut som om det var av uendelig størrelse. Et grensesnitt, som vanligvis er basert på XML , kreves for å overta disse databasene . Verktøyene DeepArc ( Bibliothèque Nationale de France ) og Xinq ( National Library of Australia ) er utviklet for slik tilgang.

Transaksjonsarkivering

Denne prosedyren brukes til å arkivere resultatene av en prosess for bruk av nettstedet. Det er viktig for institusjoner som må dokumentere bruken av juridiske årsaker. Forutsetningen er installasjon av et tilleggsprogram på webserveren.

Nettarkivering i Tyskland

På føderalt nivå har det tyske nasjonalbiblioteket (DNB) siden 2006 hatt det lovpålagte mandatet for nettarkivering. Siden 2012 har nettsider blitt arkivert tematisk og ved enkelte arrangementer, det vil si selektivt og ikke i sin helhet. DNB samarbeider med en ekstern tjenesteleverandør. I tillegg har alle DE-domener blitt gjennomsøkt én gang så langt i 2014 . Tilgang til nettarkivet er i hovedsak på lesesalene. [5]

I tillegg til nettarkiveringen til DNB, er det initiativer i ulike føderale stater:

Det finnes også andre nettarkiveringsinitiativer i Tyskland, for eksempel av partitilknyttede stiftelser , SWR , Deutsche Post eller bioteknologi-/farmasøytisk firma Abbvie .

Se også

konverteringer

weblenker

spesifikasjoner

  1. Steffen Fritz: Omskriving av historie. (PDF) med WARC-filer. januar 2016, arkivert fra originalen 9. november 2017 ; Hentet 9. november 2017 (engelsk).
  2. a b c d RfC 7089 HTTP-rammeverk for tidsbasert tilgang til ressurstilstander – Memento
  3. a b c d Memento Guide: Introduksjon. Hentet 5. oktober 2018 (engelsk).
  4. Steffen Fritz: Praksisrapport: Metoder for å evaluere arkiverbarheten til webobjekter I: ABI Technik nr. 2, 2015, s. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: Arkivering av det tyske Internett? Mellom selektiv tilnærming og .de domenegjennomgang . Tysk nasjonalbibliotek, 26. juni 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Om statusen til nettarkivering i Baden-Württemberg . I: Bibliotekstjeneste . teip 51 , nei. 6 , 1. juni 2017, ISSN  2194-9646 , s. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [åpnet 24. mars 2020]).
  7. Tobias Beinert: Nettarkivering ved det bayerske statsbiblioteket . I: Bibliotekstjeneste . teip 51 , nei. 6 , 1. juni 2017, ISSN  2194-9646 , s. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [åpnet 24. mars 2020]).
  8. Webarkivering av arbeidsflyt i langtidsarkivering ved det bayerske statsbiblioteket | BABS. Hentet 24. mars 2020 .
  9. Edoweb: Rheinland-Pfalz arkivserver for elektroniske dokumenter og nettsteder. Hentet 24. mars 2020 .