Türkçe

Web Arşivleme

Web Arşivleme

Vikipedi, özgür ansiklopedi
Gezinmeye atla Aramaya atla

Web arşivleme , halka ve bilime gelecekte geçmişe bir bakış sunmak amacıyla çevrimiçi yayınların toplanması ve kalıcı olarak dosyalanmasıdır . İşlemin sonucu bir web arşividir .

Web arşivleme için en büyük uluslararası kurum , kendisini tüm World Wide Web'in arşivi olarak gören San Francisco'daki (ABD) İnternet Arşividir . Birçok ülkedeki devlet arşivleri ve kütüphaneleri, bölgelerindeki ağ mirasını korumak için çaba sarf etmektedir.

1987'den itibaren Alman arşiv yasaları , dijital belgelerin arşivlenmesini devlet arşivlerinin zorunlu bir görevi olarak tanımladı, ancak bu görevin uygulanması henüz yeni başlıyor. 2006'da, Alman Ulusal Kütüphanesi'nin yetkisini web sitelerinin arşivlenmesini de içerecek şekilde genişleten DNBG (Alman Ulusal Kütüphane Yasası) kabul edildi. Federal eyaletler de bu anlamda yasal mevduat yasalarını değiştirmeyi planlıyorlar veya değişikliği zaten uygulamış durumdalar.

Hedefleri Arşivleme

Web arşivleme, İnternet'teki web varlığının tanımlanmış bir bölümünü sistematik bir şekilde haritalama hedefini takip eder. Bunun için kapsamlı bir koleksiyon politikası, bir seçim süreci ve arşivleme sıklığı önceden netleştirilmelidir.

Arşivlenmiş bir web sitesi, tüm multimedya işlevleriyle ( HTML kodu , stil sayfaları , JavaScript , resimler ve video) uzun vadede korunmalıdır . Kaynak , elde etme zamanı, MIME türü ve verilerin kapsamı gibi meta veriler , sonraki açıklama, kullanım ve koruma için kullanılır . Meta veriler , dijital arşiv malzemesinin özgünlüğünü ve bütünlüğünü sağlar.

Devralma sonrasında, halkın sürekli erişilebilirliğini garanti altına almak ve arşivlenen materyallerde sonradan değişiklik yapılmasını önlemek için teknik ve yasal önlemler alınmalıdır. [1]

şartlar

orijinal kaynak
İnternette halihazırda var olan veya olması gereken ve daha önceki bir duruma erişimin gerekli olduğu orijinal bir kaynak. [2] [3]
hatıra
Orijinal kaynak hatırası , belirli bir zaman noktasında bir kaynağın orijinal durumunu kapsayan bir kaynaktır. [2] [3]
Zaman Geçidi
TimeGate , belirli bir tarih ve saate dayalı olarak, bu zaman belirtimine en iyi uyan hatırayı bulan bir kaynaktır. [2] [3]
Zaman Haritası
Bir Zaman Haritası , orijinal kaynak için şimdiye kadar oluşturulmuş tüm hatıraların bir listesini döndüren bir kaynaktır. [2] [3]

Seçim süreci

belirsiz
Bu seçim sürecinde, tüm bir alan yavaş yavaş bir arşive yazılır. Büyük bellek gereksinimi nedeniyle, prosedür yalnızca daha küçük etki alanları (netarkivet.dk) için çalışır.
seçim listesi
Kurumların listesi önceden belirlenecektir. Kurumlarla ilişkili URL'lerin kararlılığı düzenli olarak kontrol edilmelidir.
Erişim istatistiklerinin kullanımı
Gelecekte, erişim sayılarına dayalı olarak, özellikle yüksek erişim oranlarına sahip web bölümlerini (veya bir seçimi) arşivleyen “akıllı” hasat düşünülebilir.

edinme yöntemleri

Uzaktan hasat

En yaygın arşivleme yöntemi, bir web tarayıcısı kullanmaktır . Bir web tarayıcısı, bir insan kullanıcı gibi bir web sitesinin içeriğini alır ve sonuçları bir arşiv nesnesine yazar. Daha doğrusu, bu , belirli bir başlangıç ​​alanından başlayarak, üzerlerinde bulunan bağlantılara dayalı olarak web sayfalarını yinelemeli olarak aramak anlamına gelir; bu, bir web sayfası veya aranacak web sayfalarının bir listesi olabilir. Süre veya depolama alanı gibi nicel sınırlamalar nedeniyle, derinlik, etki alanı ve arşivlenecek dosya türleri ile ilgili çeşitli kısıtlamalar (sonlandırma koşulları) mümkündür.

Daha büyük projelerde, URL sıralaması için web sitelerinin değerlendirilmesi özellikle önemlidir. Bir tarama işlemi sırasında, çok sayıda web adresi birikebilir ve bunlar daha sonra ya FIFO yöntemi kullanılarak bir listede ya da bir öncelik sırası olarak işlenir . İkinci durumda, web sayfalarını bir yığın yapısında hayal edebilirsiniz. Her web sayfasının kendisi kendi yığınını oluşturur ve içinde başka bir web sayfasına verilen her bağlantı, önceki web sayfasının yığınındaki bir öğeyi temsil eden bir alt yığın oluşturur. Bu aynı zamanda, bir URL listesinin taşması durumunda, en düşük önceliğe sahip olanların ilk önce yeni girişlerle değiştirilmesi avantajına da sahiptir.

Ancak, sunucudaki orijinal yapı, nadiren tam olarak arşivde yeniden üretilebilir. Yansıtmadan önce ortaya çıkabilecek herhangi bir teknik sorunu ekarte edebilmek için, web sitesinin önceden bir analizinin yapılması tavsiye edilir. Bu, çoğu durumda veri trafiğini iki katına çıkarsa da, bir hata durumunda gereken çalışma süresini önemli ölçüde azaltır. [4]

Web tarayıcılarına örnekler:

  • kalıtsal
  • HTTrack
  • çevrimdışı gezgin

Gizli Web'i Arşivleme

Gizli Web veya Derin Web , genellikle bir web sitesinin gerçek içeriğini temsil eden ve yalnızca bir kullanıcının isteği üzerine sağlanan veritabanlarını ifade eder. Sonuç olarak, web sürekli değişiyor ve sanki sonsuz boyuttaymış gibi görünüyor. Bu veritabanlarını devralmak için genellikle XML tabanlı bir arayüz gereklidir . DeepArc ( Bibliothèque National de France ) ve Xinq ( Avustralya Ulusal Kütüphanesi ) araçları bu tür erişim için geliştirilmiştir.

İşlemsel arşivleme

Bu prosedür, bir web sitesi kullanım sürecinin sonuçlarını arşivlemek için kullanılır. Yasal nedenlerle kullanımlarının kanıtını sunmak zorunda olan kurumlar için önemlidir. Ön koşul, web sunucusuna ek bir programın yüklenmesidir.

Almanya'da web arşivleme

Federal düzeyde, Alman Ulusal Kütüphanesi (DNB), 2006'dan beri web arşivleme için yasal yetkiye sahiptir. 2012 yılından bu yana, web siteleri tematik olarak ve belirli etkinliklerde, yani seçici olarak ve tam olarak arşivlenmemektedir. DNB, harici bir servis sağlayıcı ile çalışır. Ayrıca, tüm DE alan adları 2014 yılında şimdiye kadar bir kez tarandı . Web arşivine erişim esas olarak okuma odalarındadır. [5]

DNB'nin web arşivine ek olarak, çeşitli federal eyaletlerde de girişimler vardır:

Almanya'da örneğin parti bağlantılı vakıflar , SWR , Deutsche Post veya biyoteknoloji/ilaç şirketi Abbvie gibi başka web arşivleme girişimleri de vardır .

Ayrıca bakınız

dönüşümler

İnternet linkleri

maddeleştirmeler

  1. Steffen Fritz: Tarihi Yeniden Yazmak. (PDF) WARC dosyalarıyla. Ocak 2016, orijinalinden 9 Kasım 2017'de arşivlendi ; Erişim tarihi: 9 Kasım 2017 (İngilizce).
  2. a b c d RfC 7089 Kaynak Durumlarına Zamana Dayalı Erişim için HTTP Çerçevesi – Memento
  3. a b c d Hatıra Rehberi: Giriş. Erişim tarihi: 5 Ekim 2018 (İngilizce).
  4. Steffen Fritz: Uygulama raporu: Web nesnelerinin arşivlenebilirliğini değerlendirme yöntemleri In: ABI Technik No. 2, 2015, s. 117-120. doi:10.1515/abitech-2015-0015
  5. Tobias Steinke: Alman İnternetini Arşivlemek mi? Seçici yaklaşım ve .de alan taraması arasında . Alman Ulusal Kütüphanesi, 26 Haziran 2014 ( dnb.de [PDF]).
  6. Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Baden-Württemberg'de web arşivlemenin durumu hakkında . İçinde: Kütüphane Hizmeti . kaset 51 , hayır. 6 , 1 Haziran 2017, ISSN  2194-9646 , s. 481–489 , doi : 10.1515/bd-2017-0051 ( degruyter.com [24 Mart 2020'ye erişildi]).
  7. Tobias Beinert: Bavyera Eyalet Kütüphanesi'nde web arşivleme . İçinde: Kütüphane Hizmeti . kaset 51 , hayır. 6 , 1 Haziran 2017, ISSN  2194-9646 , s. 490–499 , doi : 10.1515/bd-2017-0052 ( degruyter.com [24 Mart 2020'ye erişildi]).
  8. Bavyera Eyalet Kütüphanesi'nde uzun süreli arşivlemede iş akışı web arşivleme | BABS. Erişim tarihi: 24 Mart 2020 .
  9. Edoweb: Elektronik belgeler ve web siteleri için Rheinland-Pfalz arşiv sunucusu. Erişim tarihi: 24 Mart 2020 .