L' archiviazione web è la raccolta e l'archiviazione permanente di pubblicazioni online con lo scopo di offrire al pubblico e alla scienza uno sguardo sul passato nel futuro. Il risultato del processo è un archivio web .
La più grande istituzione internazionale per l'archiviazione web è l' Internet Archive di San Francisco (USA), che si considera l'archivio dell'intero World Wide Web. Gli archivi governativi e le biblioteche di molti paesi si stanno impegnando per salvaguardare il patrimonio di rete nella loro area.
Dal 1987, le leggi tedesche sugli archivi hanno definito l'archiviazione di documenti digitali come un compito obbligatorio degli archivi di stato, ma l'attuazione di questo compito è solo all'inizio. Nel 2006 è stato approvato il DNBG (Legge sulle biblioteche nazionali tedesche), che estende il mandato della Biblioteca nazionale tedesca all'archiviazione di siti web. Anche gli stati federali stanno pianificando di modificare le loro leggi sul deposito legale in questo senso, o hanno già implementato la modifica.
L'archiviazione web persegue l'obiettivo di mappare in modo sistematico una sezione definita della presenza web su Internet. A tal fine, è necessario chiarire in anticipo una politica di raccolta globale, un processo di selezione e la frequenza di archiviazione.
Un sito web archiviato dovrebbe essere preservato a lungo termine con tutte le sue funzioni multimediali ( codice HTML , fogli di stile , JavaScript , immagini e video). Metadati come provenienza , ora di acquisizione, tipo MIME e ambito dei dati vengono utilizzati per la successiva descrizione, utilizzo e conservazione . I metadati garantiscono l' autenticità e l' integrità del materiale dell'archivio digitale.
Dopo l'acquisizione, devono essere adottate precauzioni tecniche e legali per garantire la costante accessibilità del pubblico e per prevenire successive modifiche ai materiali archiviati. [1]
Il metodo di archiviazione più comune consiste nell'utilizzare un web crawler . Un web crawler recupera i contenuti di un sito web come un utente umano e scrive i risultati in un oggetto di archivio. Più precisamente, ciò significa ricercare ricorsivamente le pagine web in base ai link che vi si trovano, partendo da una determinata area di partenza, che può essere una pagina web o un elenco di pagine web da ricercare. A causa di limitazioni quantitative, come la durata o lo spazio di archiviazione, sono possibili varie restrizioni (condizioni di terminazione) per quanto riguarda la profondità, il dominio e i tipi di file da archiviare.
Nei progetti più grandi, la valutazione dei siti Web per il posizionamento degli URL è di particolare importanza. Nel corso di un processo di scansione, può accumularsi un numero elevato di indirizzi Web, che vengono quindi elaborati in un elenco utilizzando il metodo FIFO o come coda prioritaria . In quest'ultimo caso, puoi immaginare le pagine web in una struttura heap. Ogni pagina Web stessa forma il proprio heap e ogni collegamento in essa trovato a un'altra pagina Web forma un sub-heap, che rappresenta un elemento nell'heap della pagina Web precedente. Ciò ha anche il vantaggio che, in caso di elenco URL traboccante, quelli con la priorità più bassa vengono sostituiti per primi con le nuove voci.
Tuttavia, solo raramente la struttura originale sul server può essere riprodotta esattamente nell'archivio. Per poter escludere eventuali problemi tecnici che potrebbero insorgere prima del mirroring, si consiglia di effettuare preventivamente un'analisi del sito web. Sebbene ciò raddoppi il traffico dati nella maggior parte dei casi, riduce notevolmente il tempo di lavoro necessario in caso di errore. [4]
Esempi di web crawler sono:
L'Hidden Web o Deep Web si riferisce a database che spesso rappresentano il contenuto effettivo di un sito Web e vengono forniti solo su richiesta di un utente. Di conseguenza, il web è in continua evoluzione e sembra come se fosse di dimensioni infinite. Per acquisire questi database è necessaria un'interfaccia, che di solito è basata su XML . Per tale accesso sono stati sviluppati gli strumenti DeepArc ( Bibliothèque Nationale de France ) e Xinq ( National Library of Australia ).
Questa procedura viene utilizzata per archiviare i risultati di un processo di utilizzo del sito web. È importante per le istituzioni che devono fornire la prova del loro utilizzo per motivi legali. Il prerequisito è l'installazione di un programma aggiuntivo sul server web.
A livello federale, la Biblioteca nazionale tedesca (DNB) ha il mandato legale per l'archiviazione web dal 2006. Dal 2012 i siti web vengono archiviati tematicamente e in occasione di determinati eventi, ovvero in modo selettivo e non completo. Il DNB lavora con un fornitore di servizi esterno. Inoltre, tutti i domini DE sono stati sottoposti a scansione una volta nel 2014 . L'accesso all'archivio web avviene principalmente nelle sale di lettura. [5]
Oltre all'archiviazione web del DNB, esistono iniziative in vari Länder:
Ci sono anche altre iniziative di archiviazione web in Germania, ad esempio da parte di fondazioni affiliate al partito , SWR , Deutsche Post o l'azienda biotecnologica/farmaceutica Abbvie .