El archivo web es la recopilación y el archivo permanente de publicaciones en línea con el propósito de ofrecer al público y a la ciencia un vistazo al pasado en el futuro. El resultado del proceso es un archivo web .
La institución internacional más grande para el archivo web es Internet Archive en San Francisco (EE. UU.), que se ve a sí mismo como el archivo de toda la World Wide Web. Los archivos y bibliotecas gubernamentales de muchos países están haciendo esfuerzos para salvaguardar el patrimonio de la red en su área.
Desde 1987, las leyes de archivo alemanas definieron el archivo de documentos digitales como una tarea obligatoria de los archivos estatales, pero la implementación de esta tarea apenas comienza. En 2006, se aprobó la DNBG (Ley de la Biblioteca Nacional Alemana), que amplía el mandato de la Biblioteca Nacional Alemana para incluir el archivo de sitios web. Los estados federales también están planeando cambiar sus leyes de depósito legal en este sentido, o ya han implementado el cambio.
El archivo web persigue el objetivo de mapear una sección definida de la presencia web en Internet de forma sistemática. Para ello, se debe aclarar de antemano una política de recopilación integral, un proceso de selección y la frecuencia de archivo.
Un sitio web archivado debe conservarse a largo plazo con todas sus funciones multimedia ( código HTML , hojas de estilo , JavaScript , imágenes y video). Los metadatos como la procedencia , el momento de la adquisición, el tipo MIME y el alcance de los datos se utilizan para su posterior descripción, uso y conservación . Los metadatos aseguran la autenticidad e integridad del material de archivo digital.
Después de la toma de posesión, se deben tomar precauciones técnicas y legales para garantizar la accesibilidad pública constante y evitar cambios posteriores en los materiales archivados. [1]
El método de archivo más común es utilizar un rastreador web . Un rastreador web recupera el contenido de un sitio web como un usuario humano y escribe los resultados en un objeto de archivo. Más precisamente, esto significa buscar páginas web recursivamente en función de los enlaces que se encuentran en ellas, comenzando desde un área de inicio determinada, que puede ser una página web o una lista de páginas web para buscar. Debido a las limitaciones cuantitativas, como la duración o el espacio de almacenamiento, son posibles varias restricciones (condiciones de finalización) con respecto a la profundidad, el dominio y los tipos de archivos que se archivarán.
En proyectos más grandes, la evaluación de sitios web para la clasificación de URL es de particular importancia. En el curso de un proceso de rastreo, se puede acumular una gran cantidad de direcciones web, que luego se procesan en una lista utilizando el método FIFO o como una cola de prioridad . En este último caso, puedes imaginar las páginas web en una estructura de montón. Cada página web en sí misma forma su propio montón , y cada enlace que se encuentra en ella a otra página web forma un submontón, que representa un elemento en el montón de la página web anterior. Esto también tiene la ventaja de que, en el caso de una lista de URL desbordada, las que tienen la prioridad más baja se reemplazan primero con las nuevas entradas.
Sin embargo, la estructura original en el servidor rara vez se puede reproducir exactamente en el archivo. Para poder descartar cualquier problema técnico que pueda surgir antes de realizar el mirroring, es recomendable realizar previamente un análisis del sitio web. Aunque esto duplica el tráfico de datos en la mayoría de los casos, reduce significativamente el tiempo de trabajo requerido en caso de error. [4]
Ejemplos de rastreadores web son:
La Web Oculta o Web Profunda se refiere a bases de datos que a menudo representan el contenido real de un sitio web y solo se proporcionan a pedido de un usuario. Como resultado, la web está en constante cambio y parece como si tuviera un tamaño infinito. Se requiere una interfaz, que generalmente se basa en XML , para hacerse cargo de estas bases de datos . Para dicho acceso se han desarrollado las herramientas DeepArc ( Bibliothèque national de France ) y Xinq ( National Library of Australia ).
Este procedimiento se utiliza para archivar los resultados de un proceso de uso del sitio web. Es importante para las instituciones que tienen que proporcionar prueba de su uso por razones legales. El requisito previo es la instalación de un programa adicional en el servidor web.
A nivel federal, la Biblioteca Nacional Alemana (DNB) tiene el mandato legal para el archivo web desde 2006. Desde 2012, los sitios web se archivan por temas y en determinados eventos, es decir, de forma selectiva y no completa. El DNB trabaja con un proveedor de servicios externo. Además, todos los dominios DE se han rastreado una vez en lo que va de 2014 . El acceso al archivo web se realiza principalmente en las salas de lectura. [5]
Además del archivo web de la DNB, existen iniciativas en varios estados federales:
También hay otras iniciativas de archivo web en Alemania, por ejemplo , de fundaciones afiliadas a partidos , SWR , Deutsche Post o la empresa biotecnológica/farmacéutica Abbvie .