Web arşivleme , halka ve bilime gelecekte geçmişe bir bakış sunmak amacıyla çevrimiçi yayınların toplanması ve kalıcı olarak dosyalanmasıdır . İşlemin sonucu bir web arşividir .
Web arşivleme için en büyük uluslararası kurum , kendisini tüm World Wide Web'in arşivi olarak gören San Francisco'daki (ABD) İnternet Arşividir . Birçok ülkedeki devlet arşivleri ve kütüphaneleri, bölgelerindeki ağ mirasını korumak için çaba sarf etmektedir.
1987'den itibaren Alman arşiv yasaları , dijital belgelerin arşivlenmesini devlet arşivlerinin zorunlu bir görevi olarak tanımladı, ancak bu görevin uygulanması henüz yeni başlıyor. 2006'da, Alman Ulusal Kütüphanesi'nin yetkisini web sitelerinin arşivlenmesini de içerecek şekilde genişleten DNBG (Alman Ulusal Kütüphane Yasası) kabul edildi. Federal eyaletler de bu anlamda yasal mevduat yasalarını değiştirmeyi planlıyorlar veya değişikliği zaten uygulamış durumdalar.
Web arşivleme, İnternet'teki web varlığının tanımlanmış bir bölümünü sistematik bir şekilde haritalama hedefini takip eder. Bunun için kapsamlı bir koleksiyon politikası, bir seçim süreci ve arşivleme sıklığı önceden netleştirilmelidir.
Arşivlenmiş bir web sitesi, tüm multimedya işlevleriyle ( HTML kodu , stil sayfaları , JavaScript , resimler ve video) uzun vadede korunmalıdır . Kaynak , elde etme zamanı, MIME türü ve verilerin kapsamı gibi meta veriler , sonraki açıklama, kullanım ve koruma için kullanılır . Meta veriler , dijital arşiv malzemesinin özgünlüğünü ve bütünlüğünü sağlar.
Devralma sonrasında, halkın sürekli erişilebilirliğini garanti altına almak ve arşivlenen materyallerde sonradan değişiklik yapılmasını önlemek için teknik ve yasal önlemler alınmalıdır. [1]
En yaygın arşivleme yöntemi, bir web tarayıcısı kullanmaktır . Bir web tarayıcısı, bir insan kullanıcı gibi bir web sitesinin içeriğini alır ve sonuçları bir arşiv nesnesine yazar. Daha doğrusu, bu , belirli bir başlangıç alanından başlayarak, üzerlerinde bulunan bağlantılara dayalı olarak web sayfalarını yinelemeli olarak aramak anlamına gelir; bu, bir web sayfası veya aranacak web sayfalarının bir listesi olabilir. Süre veya depolama alanı gibi nicel sınırlamalar nedeniyle, derinlik, etki alanı ve arşivlenecek dosya türleri ile ilgili çeşitli kısıtlamalar (sonlandırma koşulları) mümkündür.
Daha büyük projelerde, URL sıralaması için web sitelerinin değerlendirilmesi özellikle önemlidir. Bir tarama işlemi sırasında, çok sayıda web adresi birikebilir ve bunlar daha sonra ya FIFO yöntemi kullanılarak bir listede ya da bir öncelik sırası olarak işlenir . İkinci durumda, web sayfalarını bir yığın yapısında hayal edebilirsiniz. Her web sayfasının kendisi kendi yığınını oluşturur ve içinde başka bir web sayfasına verilen her bağlantı, önceki web sayfasının yığınındaki bir öğeyi temsil eden bir alt yığın oluşturur. Bu aynı zamanda, bir URL listesinin taşması durumunda, en düşük önceliğe sahip olanların ilk önce yeni girişlerle değiştirilmesi avantajına da sahiptir.
Ancak, sunucudaki orijinal yapı, nadiren tam olarak arşivde yeniden üretilebilir. Yansıtmadan önce ortaya çıkabilecek herhangi bir teknik sorunu ekarte edebilmek için, web sitesinin önceden bir analizinin yapılması tavsiye edilir. Bu, çoğu durumda veri trafiğini iki katına çıkarsa da, bir hata durumunda gereken çalışma süresini önemli ölçüde azaltır. [4]
Web tarayıcılarına örnekler:
Gizli Web veya Derin Web , genellikle bir web sitesinin gerçek içeriğini temsil eden ve yalnızca bir kullanıcının isteği üzerine sağlanan veritabanlarını ifade eder. Sonuç olarak, web sürekli değişiyor ve sanki sonsuz boyuttaymış gibi görünüyor. Bu veritabanlarını devralmak için genellikle XML tabanlı bir arayüz gereklidir . DeepArc ( Bibliothèque National de France ) ve Xinq ( Avustralya Ulusal Kütüphanesi ) araçları bu tür erişim için geliştirilmiştir.
Bu prosedür, bir web sitesi kullanım sürecinin sonuçlarını arşivlemek için kullanılır. Yasal nedenlerle kullanımlarının kanıtını sunmak zorunda olan kurumlar için önemlidir. Ön koşul, web sunucusuna ek bir programın yüklenmesidir.
Federal düzeyde, Alman Ulusal Kütüphanesi (DNB), 2006'dan beri web arşivleme için yasal yetkiye sahiptir. 2012 yılından bu yana, web siteleri tematik olarak ve belirli etkinliklerde, yani seçici olarak ve tam olarak arşivlenmemektedir. DNB, harici bir servis sağlayıcı ile çalışır. Ayrıca, tüm DE alan adları 2014 yılında şimdiye kadar bir kez tarandı . Web arşivine erişim esas olarak okuma odalarındadır. [5]
DNB'nin web arşivine ek olarak, çeşitli federal eyaletlerde de girişimler vardır:
Almanya'da örneğin parti bağlantılı vakıflar , SWR , Deutsche Post veya biyoteknoloji/ilaç şirketi Abbvie gibi başka web arşivleme girişimleri de vardır .