Italiano

Archiviazione web

Archiviazione web

Da Wikipedia, l'enciclopedia libera
Vai alla navigazione Vai alla ricerca

L' archiviazione web è la raccolta e l'archiviazione permanente di pubblicazioni online con lo scopo di offrire al pubblico e alla scienza uno sguardo sul passato nel futuro. Il risultato del processo è un archivio web .

La più grande istituzione internazionale per l'archiviazione web è l' Internet Archive di San Francisco (USA), che si considera l'archivio dell'intero World Wide Web. Gli archivi governativi e le biblioteche di molti paesi si stanno impegnando per salvaguardare il patrimonio di rete nella loro area.

Dal 1987, le leggi tedesche sugli archivi hanno definito l'archiviazione di documenti digitali come un compito obbligatorio degli archivi di stato, ma l'attuazione di questo compito è solo all'inizio. Nel 2006 è stato approvato il DNBG (Legge sulle biblioteche nazionali tedesche), che estende il mandato della Biblioteca nazionale tedesca all'archiviazione di siti web. Anche gli stati federali stanno pianificando di modificare le loro leggi sul deposito legale in questo senso, o hanno già implementato la modifica.

Destinazioni di archiviazione

L'archiviazione web persegue l'obiettivo di mappare in modo sistematico una sezione definita della presenza web su Internet. A tal fine, è necessario chiarire in anticipo una politica di raccolta globale, un processo di selezione e la frequenza di archiviazione.

Un sito web archiviato dovrebbe essere preservato a lungo termine con tutte le sue funzioni multimediali ( codice HTML , fogli di stile , JavaScript , immagini e video). Metadati come provenienza , ora di acquisizione, tipo MIME e ambito dei dati vengono utilizzati per la successiva descrizione, utilizzo e conservazione . I metadati garantiscono l' autenticità e l' integrità del materiale dell'archivio digitale.

Dopo l'acquisizione, devono essere adottate precauzioni tecniche e legali per garantire la costante accessibilità del pubblico e per prevenire successive modifiche ai materiali archiviati. [1]

termini

risorsa originale
Una fonte originale che attualmente esiste o dovrebbe esistere su Internet e per la quale è richiesto l'accesso a uno stato precedente. [2] [3]
ricordo
Un ricordo della fonte originale è una risorsa che incapsula lo stato originale di una fonte in un determinato momento. [2] [3]
TimeGate
Un TimeGate è una risorsa che, in base a una data e un'ora specificate, trova il ricordo che meglio corrisponde a questa specifica di tempo. [2] [3]
TimeMap
Una TimeMap è una risorsa che restituisce un elenco di tutti i ricordi che sono mai stati creati per la fonte originale. [2] [3]

processo di selezione

non specifico
In questo processo di selezione, un intero dominio viene gradualmente scritto in un archivio. A causa della grande richiesta di memoria, la procedura funziona solo per domini più piccoli (netarkivet.dk).
lista da cui scegliere
Un elenco di istituzioni sarà determinato in anticipo. La stabilità degli URL associati alle istituzioni deve essere verificata regolarmente.
Utilizzo delle statistiche di accesso
In futuro è ipotizzabile una raccolta "intelligente" , che, in base ai conteggi degli accessi, archivia quelle parti del web (o una selezione) che hanno tassi di accesso particolarmente elevati.

metodi di acquisizione

Raccolta a distanza

Il metodo di archiviazione più comune consiste nell'utilizzare un web crawler . Un web crawler recupera i contenuti di un sito web come un utente umano e scrive i risultati in un oggetto di archivio. Più precisamente, ciò significa ricercare ricorsivamente le pagine web in base ai link che vi si trovano, partendo da una determinata area di partenza, che può essere una pagina web o un elenco di pagine web da ricercare. A causa di limitazioni quantitative, come la durata o lo spazio di archiviazione, sono possibili varie restrizioni (condizioni di terminazione) per quanto riguarda la profondità, il dominio e i tipi di file da archiviare.

Nei progetti più grandi, la valutazione dei siti Web per il posizionamento degli URL è di particolare importanza. Nel corso di un processo di scansione, può accumularsi un numero elevato di indirizzi Web, che vengono quindi elaborati in un elenco utilizzando il metodo FIFO o come coda prioritaria . In quest'ultimo caso, puoi immaginare le pagine web in una struttura heap. Ogni pagina Web stessa forma il proprio heap e ogni collegamento in essa trovato a un'altra pagina Web forma un sub-heap, che rappresenta un elemento nell'heap della pagina Web precedente. Ciò ha anche il vantaggio che, in caso di elenco URL traboccante, quelli con la priorità più bassa vengono sostituiti per primi con le nuove voci.

Tuttavia, solo raramente la struttura originale sul server può essere riprodotta esattamente nell'archivio. Per poter escludere eventuali problemi tecnici che potrebbero insorgere prima del mirroring, si consiglia di effettuare preventivamente un'analisi del sito web. Sebbene ciò raddoppi il traffico dati nella maggior parte dei casi, riduce notevolmente il tempo di lavoro necessario in caso di errore. [4]

Esempi di web crawler sono:

  • Heritrix
  • HTTrack
  • esploratore offline

Archiviare il Web nascosto

L'Hidden Web o Deep Web si riferisce a database che spesso rappresentano il contenuto effettivo di un sito Web e vengono forniti solo su richiesta di un utente. Di conseguenza, il web è in continua evoluzione e sembra come se fosse di dimensioni infinite. Per acquisire questi database è necessaria un'interfaccia, che di solito è basata su XML . Per tale accesso sono stati sviluppati gli strumenti DeepArc ( Bibliothèque Nationale de France ) e Xinq ( National Library of Australia ).

Archiviazione transazionale

Questa procedura viene utilizzata per archiviare i risultati di un processo di utilizzo del sito web. È importante per le istituzioni che devono fornire la prova del loro utilizzo per motivi legali. Il prerequisito è l'installazione di un programma aggiuntivo sul server web.

Archiviazione web in Germania

A livello federale, la Biblioteca nazionale tedesca (DNB) ha il mandato legale per l'archiviazione web dal 2006. Dal 2012 i siti web vengono archiviati tematicamente e in occasione di determinati eventi, ovvero in modo selettivo e non completo. Il DNB lavora con un fornitore di servizi esterno. Inoltre, tutti i domini DE sono stati sottoposti a scansione una volta nel 2014 . L'accesso all'archivio web avviene principalmente nelle sale di lettura. [5]

Oltre all'archiviazione web del DNB, esistono iniziative in vari Länder:

Ci sono anche altre iniziative di archiviazione web in Germania, ad esempio da parte di fondazioni affiliate al partito , SWR , Deutsche Post o l'azienda biotecnologica/farmaceutica Abbvie .

Guarda anche

conversioni

link internet

voci

  1. ^ Steffen Fritz: riscrivere la storia. (PDF) con file WARC. gennaio 2016, archiviato dall'originale il 9 novembre 2017 ; Estratto il 9 novembre 2017 (inglese).
  2. a b c d RfC 7089 HTTP Framework for Time-Based Access to Resource States – Memento
  3. a b c d Guida ai ricordi: Introduzione. Estratto il 5 ottobre 2018 (inglese).
  4. Steffen Fritz: Relazione pratica: Metodi per valutare l'archivabilità degli oggetti web In: ABI Technik No. 2, 2015, pp. 117-120. doi:10.1515/abitech-2015-0015
  5. ^ Tobias Steinke: Archiviare l'Internet tedesco? Tra approccio selettivo e scansione del dominio .de . Biblioteca nazionale tedesca, 26 giugno 2014 ( dnb.de [PDF]).
  6. ^ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: sullo stato dell'archiviazione web nel Baden-Württemberg . In: Servizio Bibliotecario . nastro 51 , n. 6 , 1 giugno 2017, ISSN  2194-9646 , pp. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [accesso 24 marzo 2020]).
  7. Tobias Beinert: Archiviazione web presso la Biblioteca di Stato Bavarese . In: Servizio Bibliotecario . nastro 51 , n. 6 , 1 giugno 2017, ISSN  2194-9646 , pp. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [accesso 24 marzo 2020]).
  8. Archiviazione web del flusso di lavoro nell'archiviazione a lungo termine presso la Biblioteca di Stato bavarese | BAMBINI. Estratto il 24 marzo 2020 .
  9. Edoweb: server archivio Renania-Palatinato per documenti elettronici e siti web. Estratto il 24 marzo 2020 .