O arquivamento da Web é a coleta e o arquivamento permanente de publicações on -line com o objetivo de oferecer ao público e à ciência um vislumbre do passado no futuro. O resultado do processo é um arquivo web .
A maior instituição internacional de arquivamento da web é o Internet Archive em San Francisco (EUA), que se considera o arquivo de toda a World Wide Web. Arquivos e bibliotecas governamentais em muitos países estão fazendo esforços para salvaguardar o patrimônio da rede em sua área.
A partir de 1987, as leis de arquivo alemãs definiram o arquivamento de documentos digitais como uma tarefa obrigatória dos arquivos estatais, mas a implementação dessa tarefa está apenas começando. Em 2006, a DNBG (Lei da Biblioteca Nacional Alemã) foi aprovada, estendendo o mandato da Biblioteca Nacional Alemã para incluir o arquivamento de sites. Os estados federais também estão planejando mudar suas leis de depósito legal nesse sentido, ou já implementaram a mudança.
O arquivamento da Web persegue o objetivo de mapear uma seção definida da presença da Web na Internet de maneira sistemática. Para isso, uma política de coleta abrangente, um processo de seleção e a frequência de arquivamento devem ser esclarecidos antecipadamente.
Um site arquivado deve ser preservado a longo prazo com todas as suas funções multimídia ( código HTML , folhas de estilo , JavaScript , imagens e vídeo). Metadados como proveniência , tempo de aquisição, tipo MIME e escopo dos dados são usados para posterior descrição, uso e preservação . Os metadados garantem a autenticidade e integridade do material de arquivo digital.
Após a aquisição, precauções técnicas e legais devem ser tomadas para garantir a acessibilidade constante do público e evitar alterações posteriores nos materiais arquivados. [1]
O método de arquivamento mais comum é usar um rastreador da web . Um rastreador da Web recupera o conteúdo de um site como um usuário humano e grava os resultados em um objeto de arquivo. Mais precisamente, isso significa pesquisar recursivamente páginas da web com base nos links encontrados nelas, a partir de uma determinada área inicial, que pode ser uma página da web ou uma lista de páginas da web a serem pesquisadas. Devido a limitações quantitativas, como duração ou espaço de armazenamento, várias restrições (condições de término) são possíveis em relação à profundidade, domínio e tipos de arquivos a serem arquivados.
Em projetos maiores, a avaliação de sites para classificação de URL é de particular importância. No decorrer de um processo de rastreamento, um grande número de endereços da Web pode se acumular, que são processados em uma lista usando o método FIFO ou como uma fila de prioridade . No último caso, você pode imaginar as páginas da Web em uma estrutura de heap. Cada página da Web forma seu próprio heap e cada link encontrado nela para outra página da Web forma um sub-heap, que representa um elemento no heap da página da Web anterior. Isso também tem a vantagem de que, no caso de uma lista de URLs transbordando, aqueles com a prioridade mais baixa são substituídos por novas entradas primeiro.
No entanto, a estrutura original no servidor raramente pode ser reproduzida exatamente no arquivo. Para poder descartar quaisquer problemas técnicos que possam surgir antes do espelhamento, é aconselhável realizar uma análise prévia do site. Embora isso duplique o tráfego de dados na maioria dos casos, reduz significativamente o tempo de trabalho necessário em caso de erro. [4]
Exemplos de rastreadores da web são:
A Hidden Web ou Deep Web refere-se a bancos de dados que geralmente representam o conteúdo real de um site e são fornecidos apenas mediante solicitação de um usuário. Como resultado, a web está em constante mudança e parece ter um tamanho infinito. Uma interface, que geralmente é baseada em XML , é necessária para assumir esses bancos de dados . As ferramentas DeepArc ( Bibliothèque national de France ) e Xinq ( National Library of Australia ) foram desenvolvidas para tal acesso.
Este procedimento é usado para arquivar os resultados de um processo de uso do site. É importante para as instituições que têm de apresentar provas da sua utilização por motivos legais. O pré-requisito é a instalação de um programa adicional no servidor web.
No nível federal, a Biblioteca Nacional Alemã (DNB) tem o mandato estatutário para arquivamento da web desde 2006. Desde 2012, os sites são arquivados tematicamente e em determinados eventos, ou seja, de forma seletiva e não completa. O DNB trabalha com um provedor de serviços externo. Além disso, todos os domínios DE foram rastreados uma vez até agora em 2014 . O acesso ao arquivo web é feito principalmente nas salas de leitura. [5]
Além do arquivamento web do DNB, há iniciativas em vários estados da federação:
Há também outras iniciativas de arquivamento da web na Alemanha, por exemplo, por fundações afiliadas a partidos , SWR , Deutsche Post ou a empresa de biotecnologia/farmacêutica Abbvie .