Español

Archivo web

Archivo web

De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El archivo web es la recopilación y el archivo permanente de publicaciones en línea con el propósito de ofrecer al público y a la ciencia un vistazo al pasado en el futuro. El resultado del proceso es un archivo web .

La institución internacional más grande para el archivo web es Internet Archive en San Francisco (EE. UU.), que se ve a sí mismo como el archivo de toda la World Wide Web. Los archivos y bibliotecas gubernamentales de muchos países están haciendo esfuerzos para salvaguardar el patrimonio de la red en su área.

Desde 1987, las leyes de archivo alemanas definieron el archivo de documentos digitales como una tarea obligatoria de los archivos estatales, pero la implementación de esta tarea apenas comienza. En 2006, se aprobó la DNBG (Ley de la Biblioteca Nacional Alemana), que amplía el mandato de la Biblioteca Nacional Alemana para incluir el archivo de sitios web. Los estados federales también están planeando cambiar sus leyes de depósito legal en este sentido, o ya han implementado el cambio.

Archivar destinos

El archivo web persigue el objetivo de mapear una sección definida de la presencia web en Internet de forma sistemática. Para ello, se debe aclarar de antemano una política de recopilación integral, un proceso de selección y la frecuencia de archivo.

Un sitio web archivado debe conservarse a largo plazo con todas sus funciones multimedia ( código HTML , hojas de estilo , JavaScript , imágenes y video). Los metadatos como la procedencia , el momento de la adquisición, el tipo MIME y el alcance de los datos se utilizan para su posterior descripción, uso y conservación . Los metadatos aseguran la autenticidad e integridad del material de archivo digital.

Después de la toma de posesión, se deben tomar precauciones técnicas y legales para garantizar la accesibilidad pública constante y evitar cambios posteriores en los materiales archivados. [1]

términos

recurso original
Una fuente original que actualmente existe o debería existir en Internet y para la cual se requiere acceso a un estado anterior. [2] [3]
recuerdo
Un recuerdo de fuente original es un recurso que encapsula el estado original de una fuente en un punto definido en el tiempo. [2] [3]
puerta de tiempo
Un TimeGate es un recurso que, en función de una fecha y hora específicas, encuentra el recuerdo que mejor corresponde a esta especificación de tiempo. [2] [3]
Mapa de tiempo
Un TimeMap es un recurso que devuelve una lista de todos los recuerdos que se han creado alguna vez para la fuente original. [2] [3]

proceso de selección

inespecífico
En este proceso de selección, un dominio completo se escribe gradualmente en un archivo. Debido al gran requisito de memoria, el procedimiento solo funciona para dominios más pequeños (netarkivet.dk).
lista de selección
Una lista de instituciones se determinará de antemano. La estabilidad de las URL asociadas a las instituciones debe verificarse periódicamente.
Uso de estadísticas de acceso
En el futuro, es concebible la recolección "inteligente" , que, en función de los recuentos de acceso, archiva aquellas partes de la web (o una selección) que tienen tasas de acceso particularmente altas.

métodos de adquisición

Cosecha remota

El método de archivo más común es utilizar un rastreador web . Un rastreador web recupera el contenido de un sitio web como un usuario humano y escribe los resultados en un objeto de archivo. Más precisamente, esto significa buscar páginas web recursivamente en función de los enlaces que se encuentran en ellas, comenzando desde un área de inicio determinada, que puede ser una página web o una lista de páginas web para buscar. Debido a las limitaciones cuantitativas, como la duración o el espacio de almacenamiento, son posibles varias restricciones (condiciones de finalización) con respecto a la profundidad, el dominio y los tipos de archivos que se archivarán.

En proyectos más grandes, la evaluación de sitios web para la clasificación de URL es de particular importancia. En el curso de un proceso de rastreo, se puede acumular una gran cantidad de direcciones web, que luego se procesan en una lista utilizando el método FIFO o como una cola de prioridad . En este último caso, puedes imaginar las páginas web en una estructura de montón. Cada página web en sí misma forma su propio montón , y cada enlace que se encuentra en ella a otra página web forma un submontón, que representa un elemento en el montón de la página web anterior. Esto también tiene la ventaja de que, en el caso de una lista de URL desbordada, las que tienen la prioridad más baja se reemplazan primero con las nuevas entradas.

Sin embargo, la estructura original en el servidor rara vez se puede reproducir exactamente en el archivo. Para poder descartar cualquier problema técnico que pueda surgir antes de realizar el mirroring, es recomendable realizar previamente un análisis del sitio web. Aunque esto duplica el tráfico de datos en la mayoría de los casos, reduce significativamente el tiempo de trabajo requerido en caso de error. [4]

Ejemplos de rastreadores web son:

  • Heredero
  • Pista HT
  • explorador sin conexión

Archivar la web oculta

La Web Oculta o Web Profunda se refiere a bases de datos que a menudo representan el contenido real de un sitio web y solo se proporcionan a pedido de un usuario. Como resultado, la web está en constante cambio y parece como si tuviera un tamaño infinito. Se requiere una interfaz, que generalmente se basa en XML , para hacerse cargo de estas bases de datos . Para dicho acceso se han desarrollado las herramientas DeepArc ( Bibliothèque national de France ) y Xinq ( National Library of Australia ).

Archivado transaccional

Este procedimiento se utiliza para archivar los resultados de un proceso de uso del sitio web. Es importante para las instituciones que tienen que proporcionar prueba de su uso por razones legales. El requisito previo es la instalación de un programa adicional en el servidor web.

Archivo web en Alemania

A nivel federal, la Biblioteca Nacional Alemana (DNB) tiene el mandato legal para el archivo web desde 2006. Desde 2012, los sitios web se archivan por temas y en determinados eventos, es decir, de forma selectiva y no completa. El DNB trabaja con un proveedor de servicios externo. Además, todos los dominios DE se han rastreado una vez en lo que va de 2014 . El acceso al archivo web se realiza principalmente en las salas de lectura. [5]

Además del archivo web de la DNB, existen iniciativas en varios estados federales:

También hay otras iniciativas de archivo web en Alemania, por ejemplo , de fundaciones afiliadas a partidos , SWR , Deutsche Post o la empresa biotecnológica/farmacéutica Abbvie .

Ver también

conversiones

enlaces web

desgloses

  1. Steffen Fritz: Reescribiendo la historia. (PDF) con archivos WARC. enero de 2016, archivado desde el original el 9 de noviembre de 2017 ; Consultado el 9 de noviembre de 2017 (inglés).
  2. a b c d RfC 7089 HTTP Framework para el acceso basado en el tiempo a los estados de los recursos: Memento
  3. a b c d Guía Memento: Introducción. Consultado el 5 de octubre de 2018 (inglés).
  4. Steffen Fritz: Informe de práctica: Métodos para evaluar la archivabilidad de objetos web En: ABI Technik No. 2, 2015, pp. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: ¿Archivando el Internet alemán? Entre el enfoque selectivo y el rastreo de dominios .de . Biblioteca Nacional Alemana, 26 de junio de 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Sobre el estado del archivo web en Baden-Württemberg . En: Servicio de Bibliotecas . cinta 51 , núm. 6 , 1 de junio de 2017, ISSN  2194-9646 , págs. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [consultado el 24 de marzo de 2020]).
  7. Tobias Beinert: Archivo web en la Biblioteca Estatal de Baviera . En: Servicio de Bibliotecas . cinta 51 , núm. 6 , 1 de junio de 2017, ISSN  2194-9646 , págs. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [consultado el 24 de marzo de 2020]).
  8. Archivo web de flujo de trabajo en el archivo a largo plazo en la Biblioteca Estatal de Baviera | BEBÉS. Consultado el 24 de marzo de 2020 .
  9. Edoweb: servidor de archivo de Renania-Palatinado para documentos electrónicos y sitios web. Consultado el 24 de marzo de 2020 .