Svenska

Webbarkivering

Webbarkivering

Från Wikipedia, den fria encyklopedin
Hoppa till navigering Hoppa till sökning

Webbarkivering är insamling och permanent arkivering av onlinepublikationer i syfte att erbjuda allmänheten och vetenskapen en inblick i det förflutna i framtiden. Resultatet av processen är ett webbarkiv .

Den största internationella institutionen för webbarkivering är Internet Archive i San Francisco (USA), som ser sig som arkivet för hela World Wide Web. Regeringsarkiv och bibliotek i många länder gör ansträngningar för att värna om nätverksarvet i sitt område.

Från 1987 definierade de tyska arkivlagarna arkivering av digitala dokument som en obligatorisk uppgift för de statliga arkiven, men genomförandet av denna uppgift har bara börjat. 2006 antogs DNBG (den tyska nationalbibliotekslagen) som utökade det tyska nationalbibliotekets mandat till att omfatta arkivering av webbplatser. De federala staterna planerar också att ändra sina lagar om pliktdeposition i denna mening, eller har redan genomfört förändringen.

Arkivera destinationer

Webbarkivering syftar till att kartlägga en definierad del av webbnärvaron på Internet på ett systematiskt sätt. För detta ändamål måste en övergripande insamlingspolicy, en urvalsprocess och arkiveringsfrekvensen vara klarlagd i förväg.

En arkiverad webbplats bör bevaras på lång sikt med alla dess multimediafunktioner ( HTML-kod , stilmallar , JavaScript , bilder och video). Metadata såsom härkomst , tidpunkt för förvärv, MIME-typ och omfattning av data används för efterföljande beskrivning, användning och bevarande . Metadata säkerställer det digitala arkivmaterialets autenticitet och integritet .

Efter övertagandet måste tekniska och juridiska försiktighetsåtgärder vidtas för att garantera ständig allmän tillgänglighet och för att förhindra efterföljande ändringar av det arkiverade materialet. [1]

villkor

ursprunglig resurs
En originalkälla som för närvarande finns eller borde finnas på Internet och för vilken tillgång till ett tidigare tillstånd krävs. [2] [3]
minne
Ett originalkällminne är en resurs som kapslar in det ursprungliga tillståndet för en källa vid en definierad tidpunkt. [2] [3]
TimeGate
En TimeGate är en resurs som, baserat på ett angivet datum och tid, hittar det minne som bäst motsvarar denna tidsspecifikation. [2] [3]
TimeMap
En TimeMap är en resurs som returnerar en lista över alla minnen som någonsin har skapats för den ursprungliga källan. [2] [3]

valprocess

ospecifik
I denna urvalsprocess skrivs en hel domän gradvis in i ett arkiv. På grund av det stora minnesbehovet fungerar proceduren endast för mindre domäner (netarkivet.dk).
plocklista
En lista över institutioner kommer att fastställas i förväg. Stabiliteten hos webbadresserna som är kopplade till institutionerna måste kontrolleras regelbundet.
Användning av åtkomststatistik
I framtiden kan man tänka sig ”intelligent” skörd , som baserat på åtkomsträkningar arkiverar de delar av webben (eller ett urval) som har särskilt höga åtkomstgrader.

förvärvsmetoder

Fjärrskörd

Den vanligaste arkiveringsmetoden är att använda en sökrobot . En sökrobot hämtar innehållet på en webbplats som en mänsklig användare och skriver resultaten till ett arkivobjekt. Mer exakt innebär detta att man rekursivt söker på webbsidor baserat på länkarna som finns på dem, utgående från ett visst startområde, som antingen kan vara en webbsida eller en lista över webbsidor som ska sökas. På grund av kvantitativa begränsningar, såsom varaktighet eller lagringsutrymme, är olika restriktioner (uppsägningsvillkor) möjliga med avseende på djup, domän och vilka typer av filer som ska arkiveras.

I större projekt är utvärderingen av webbplatser för URL-rankning av särskild vikt. Under en genomsökningsprocess kan ett stort antal webbadresser ackumuleras, som sedan bearbetas antingen i en lista med FIFO- metoden eller som en prioritetskö . I det senare fallet kan du föreställa dig webbsidorna i en högstruktur. Varje webbsida bildar själv sin egen hög , och varje länk som hittas på den till en annan webbsida bildar en underhög, som representerar ett element i föregående webbsidas hög. Detta har också fördelen att i händelse av en överfull URL-lista ersätts de med lägst prioritet med nya poster först.

Den ursprungliga strukturen på servern kan dock endast sällan återges exakt i arkivet. För att kunna utesluta eventuella tekniska problem som kan uppstå inför spegling är det lämpligt att göra en analys av hemsidan i förväg. Även om detta fördubblar datatrafiken i de flesta fall, minskar det avsevärt arbetstiden som krävs vid ett fel. [4]

Exempel på sökrobotar är:

Arkivera den dolda webben

The Hidden Web eller Deep Web hänvisar till databaser som ofta representerar det faktiska innehållet på en webbplats och endast ges ut på begäran av en användare. Som ett resultat förändras nätet ständigt och det verkar som om det vore av oändlig storlek. Ett gränssnitt, som vanligtvis är baserat på XML , krävs för att ta över dessa databaser . Verktygen DeepArc ( Bibliothèque Nationale de France ) och Xinq ( National Library of Australia ) har utvecklats för sådan åtkomst.

Transaktionsarkivering

Denna procedur används för att arkivera resultaten av en webbplatsanvändningsprocess. Det är viktigt för institutioner som av juridiska skäl måste bevisa sin användning. Förutsättningen är installation av ytterligare ett program på webbservern.

Webbarkivering i Tyskland

På federal nivå har det tyska nationalbiblioteket (DNB) sedan 2006 det lagstadgade mandatet för webbarkivering. Sedan 2012 har webbplatser arkiverats tematiskt och vid vissa evenemang, det vill säga selektivt och inte i sin helhet. DNB arbetar med en extern tjänsteleverantör. Dessutom har alla DE-domäner genomsökts en gång hittills under 2014 . Tillgång till webbarkivet sker främst i läsesalarna. [5]

Utöver webbarkiveringen av DNB finns det initiativ i olika federala stater:

Det finns även andra initiativ för webbarkivering i Tyskland, till exempel av partianslutna stiftelser , SWR , Deutsche Post eller bioteknik-/läkemedelsföretaget Abbvie .

Se även

konverteringar

webb-länkar

specificering

  1. Steffen Fritz: Omskrivning av historia. (PDF) med WARC-filer. januari 2016, arkiverad från originalet den 9 november 2017 ; Hämtad 9 november 2017 (engelska).
  2. a b c d RfC 7089 HTTP-ramverk för tidsbaserad åtkomst till resurstillstånd – Memento
  3. a b c d Memento Guide: Introduktion. Hämtad 5 oktober 2018 (engelska).
  4. Steffen Fritz: Praxisrapport: Metoder för att utvärdera webbobjekts arkiveringsförmåga I: ABI Technik nr 2, 2015, s. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: Arkivering av det tyska internet? Mellan selektiv ansats och .de-domängenomsökning . Tyska nationalbiblioteket, 26 juni 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Om tillståndet för webbarkivering i Baden-Württemberg . I: Bibliotekstjänst . tejp 51 , nr. 6 , 1 juni 2017, ISSN  2194-9646 , s. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [tillgänglig 24 mars 2020]).
  7. Tobias Beinert: Webarkivering vid det bayerska statsbiblioteket . I: Bibliotekstjänst . tejp 51 , nr. 6 , 1 juni 2017, ISSN  2194-9646 , s. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [tillgänglig 24 mars 2020]).
  8. Arbetsflödeswebbarkivering vid långtidsarkivering vid Bayerns statsbibliotek | BABS. Hämtad 24 mars 2020 .
  9. Edoweb: Rheinland-Pfalz arkivserver för elektroniska dokument och webbplatser. Hämtad 24 mars 2020 .