Archivace internetu

Archivace internetu je proces sbírání části obsahu internetu a zajištění, že sbírané objekty jsou dlouhodobě uchovávány a zpřístupňovány pro budoucí badatele, historiky a veřejnost. Archivování internetu se obvykle provádí automaticky pomocí robotu (web crawlers). Největší institucí, která se archivací internetu zabývá je Internet Archive, v česku WebArchiv.

Sběr webu

Archivují se obvykle všechny součásti obsahu internetu, včetně HTML, stylů CSS, JavaScriptu, digitálních obrázků a multimediálních souborů. Také se skladují metadata související s těmito objekty, jako jsou informace o tom, kdy byl objekt získán, jakého je typu, jakou technologií byl sklizen, jak je velký atp. Metadata jsou důležitá pro určení autenticity a původnosti dat.

Nejčastěji se internet sbírá pomocí robotů, které vidí stránky podobně jako uživatel. Používané roboty jsou například:

  • BRJBot
  • Heritrix
  • HTTrack
  • Offline Explorer

Související články

Externí odkazy

  • International Internet Preservation Consortium (IIPC) –
  • International Web Archiving Workshop (IWAW)
  • Library of Congress, Web Capture
  • Web archiving bibliography
  • WebArchivist
  • Projekty:
    • CyberCemetery
    • Digital Archive of Chinese Studies
    • Internet Memory Foundation (dříve European Archive Foundation)
    • Hanzo Archives
    • Internet Archive
    • Portuguese Web Archive
    • On-demand Web Archiver
    • The Library of Congress, National Digital Information Infrastructure and Preservation Program
    • UK Web Archiving Consortium[nedostupný zdroj]
    • Archivujem.cz - Archiv skončené inzerce
Autoritní data Editovat na Wikidatech
  • NKC: ph367688
  • NDL: 00981807
  • NLI: 987007547103805171