Português

Arquivamento da Web

Arquivamento da Web

Da Wikipédia, a enciclopédia livre
Ir para a navegação Ir para a pesquisa

O arquivamento da Web é a coleta e o arquivamento permanente de publicações on -line com o objetivo de oferecer ao público e à ciência um vislumbre do passado no futuro. O resultado do processo é um arquivo web .

A maior instituição internacional de arquivamento da web é o Internet Archive em San Francisco (EUA), que se considera o arquivo de toda a World Wide Web. Arquivos e bibliotecas governamentais em muitos países estão fazendo esforços para salvaguardar o patrimônio da rede em sua área.

A partir de 1987, as leis de arquivo alemãs definiram o arquivamento de documentos digitais como uma tarefa obrigatória dos arquivos estatais, mas a implementação dessa tarefa está apenas começando. Em 2006, a DNBG (Lei da Biblioteca Nacional Alemã) foi aprovada, estendendo o mandato da Biblioteca Nacional Alemã para incluir o arquivamento de sites. Os estados federais também estão planejando mudar suas leis de depósito legal nesse sentido, ou já implementaram a mudança.

Destinos de arquivamento

O arquivamento da Web persegue o objetivo de mapear uma seção definida da presença da Web na Internet de maneira sistemática. Para isso, uma política de coleta abrangente, um processo de seleção e a frequência de arquivamento devem ser esclarecidos antecipadamente.

Um site arquivado deve ser preservado a longo prazo com todas as suas funções multimídia ( código HTML , folhas de estilo , JavaScript , imagens e vídeo). Metadados como proveniência , tempo de aquisição, tipo MIME e escopo dos dados são usados ​​para posterior descrição, uso e preservação . Os metadados garantem a autenticidade e integridade do material de arquivo digital.

Após a aquisição, precauções técnicas e legais devem ser tomadas para garantir a acessibilidade constante do público e evitar alterações posteriores nos materiais arquivados. [1]

termos

recurso original
Uma fonte original que existe atualmente ou deveria existir na Internet e para a qual é necessário acessar um estado anterior. [2] [3]
lembrança
Um memento de origem original é um recurso que encapsula o estado original de uma origem em um ponto definido no tempo. [2] [3]
TimeGate
Um TimeGate é um recurso que, com base em uma data e hora especificadas, encontra o memento que melhor corresponde a essa especificação de tempo. [2] [3]
Mapa do tempo
Um TimeMap é um recurso que retorna uma lista de todas as lembranças que já foram criadas para a fonte original. [2] [3]

processo de seleção

inespecífico
Nesse processo de seleção, um domínio inteiro é gradativamente gravado em um arquivo. Devido ao grande requisito de memória, o procedimento funciona apenas para domínios menores (netarkivet.dk).
lista de escolhas
Uma lista de instituições será determinada com antecedência. A estabilidade dos URLs associados às instituições deve ser verificada regularmente.
Uso de estatísticas de acesso
No futuro, é concebível a coleta “inteligente” , que, com base nas contagens de acesso, arquiva as partes da web (ou uma seleção) que têm taxas de acesso particularmente altas.

métodos de aquisição

Colheita remota

O método de arquivamento mais comum é usar um rastreador da web . Um rastreador da Web recupera o conteúdo de um site como um usuário humano e grava os resultados em um objeto de arquivo. Mais precisamente, isso significa pesquisar recursivamente páginas da web com base nos links encontrados nelas, a partir de uma determinada área inicial, que pode ser uma página da web ou uma lista de páginas da web a serem pesquisadas. Devido a limitações quantitativas, como duração ou espaço de armazenamento, várias restrições (condições de término) são possíveis em relação à profundidade, domínio e tipos de arquivos a serem arquivados.

Em projetos maiores, a avaliação de sites para classificação de URL é de particular importância. No decorrer de um processo de rastreamento, um grande número de endereços da Web pode se acumular, que são processados ​​em uma lista usando o método FIFO ou como uma fila de prioridade . No último caso, você pode imaginar as páginas da Web em uma estrutura de heap. Cada página da Web forma seu próprio heap e cada link encontrado nela para outra página da Web forma um sub-heap, que representa um elemento no heap da página da Web anterior. Isso também tem a vantagem de que, no caso de uma lista de URLs transbordando, aqueles com a prioridade mais baixa são substituídos por novas entradas primeiro.

No entanto, a estrutura original no servidor raramente pode ser reproduzida exatamente no arquivo. Para poder descartar quaisquer problemas técnicos que possam surgir antes do espelhamento, é aconselhável realizar uma análise prévia do site. Embora isso duplique o tráfego de dados na maioria dos casos, reduz significativamente o tempo de trabalho necessário em caso de erro. [4]

Exemplos de rastreadores da web são:

  • Heritrix
  • HTTrack
  • explorador offline

Arquivando a Web Oculta

A Hidden Web ou Deep Web refere-se a bancos de dados que geralmente representam o conteúdo real de um site e são fornecidos apenas mediante solicitação de um usuário. Como resultado, a web está em constante mudança e parece ter um tamanho infinito. Uma interface, que geralmente é baseada em XML , é necessária para assumir esses bancos de dados . As ferramentas DeepArc ( Bibliothèque national de France ) e Xinq ( National Library of Australia ) foram desenvolvidas para tal acesso.

Arquivamento transacional

Este procedimento é usado para arquivar os resultados de um processo de uso do site. É importante para as instituições que têm de apresentar provas da sua utilização por motivos legais. O pré-requisito é a instalação de um programa adicional no servidor web.

Arquivamento da Web na Alemanha

No nível federal, a Biblioteca Nacional Alemã (DNB) tem o mandato estatutário para arquivamento da web desde 2006. Desde 2012, os sites são arquivados tematicamente e em determinados eventos, ou seja, de forma seletiva e não completa. O DNB trabalha com um provedor de serviços externo. Além disso, todos os domínios DE foram rastreados uma vez até agora em 2014 . O acesso ao arquivo web é feito principalmente nas salas de leitura. [5]

Além do arquivamento web do DNB, há iniciativas em vários estados da federação:

Há também outras iniciativas de arquivamento da web na Alemanha, por exemplo, por fundações afiliadas a partidos , SWR , Deutsche Post ou a empresa de biotecnologia/farmacêutica Abbvie .

Veja também

conversões

links da web

itemizações

  1. Steffen Fritz: Reescrevendo a História. (PDF) com arquivos WARC. janeiro de 2016, arquivado do original em 9 de novembro de 2017 ; Recuperado em 9 de novembro de 2017 (inglês).
  2. a b c d RfC 7089 HTTP Framework para acesso baseado em tempo a estados de recursos – Memento
  3. a b c d Guia de lembranças: Introdução. Recuperado em 5 de outubro de 2018 (inglês).
  4. Steffen Fritz: Relatório prático: Métodos para avaliar a arquivabilidade de objetos da web In: ABI Technik No. 2, 2015, pp. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: Arquivando a Internet alemã? Entre abordagem seletiva e rastreamento de domínio .de . Biblioteca Nacional da Alemanha, 26 de junho de 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Sobre o status do arquivamento da web em Baden-Württemberg . Em: Serviço de Biblioteca . fita 51 , não. 6 , 1 de junho de 2017, ISSN  2194-9646 , pp. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [acessado em 24 de março de 2020]).
  7. Tobias Beinert: Arquivo da Web na Biblioteca Estadual da Baviera . In: Serviço de Biblioteca . fita 51 , não. 6 , 1 de junho de 2017, ISSN  2194-9646 , pp. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [acessado em 24 de março de 2020]).
  8. Arquivamento da web de fluxo de trabalho em arquivamento de longo prazo na Biblioteca Estadual da Baviera | BABS. Recuperado em 24 de março de 2020 .
  9. Edoweb: servidor de arquivo da Renânia-Palatinado para documentos eletrônicos e sites. Recuperado em 24 de março de 2020 .