Web archiving

Web archiving és el procés de recollir parts del World Wide Web per assegurar la preservació de la informació en un arxiu per a futurs investigadors, historiadors i públic general. Els arxivers web normalment utilitzen aranyes web (web crawlers, en anglès) per automatitzar la captura a causa de l'enorme grandària i la quantitat d'informació present a la Xarxa. L'organització més gran de web archiving basada en l'ús massiu del rastreig web (web crawling) és l'Internet Archive que s'esforça a mantenir un arxiu de tota la Xarxa. L'International Web Archiving Workshop (IWAW), iniciat el 2001, va proporcionar una plataforma per compartir i intercanviar experiències i idees. La posterior fundació de l'International Internet Preservation Consortium (IIPC) l'any 2003 va facilitar en gran manera la col·laboració internacional en el desenvolupament d'estàndards i eines de codi obert per a la creació d'arxius web. Aquests esdeveniments, i la part cada cop més gran de la cultura humana creada i enregistrada a la web, es combinen per fer inevitable que cada vegada més les biblioteques i arxius hauran de fer front als reptes de l'arxiu web. Així mateix, les biblioteques nacionals, arxius nacionals i diversos consorcis d'organitzacions també estan involucrats a arxivar contingut web amb valor cultural. Igualment, hi ha disponible programari comercial i serveis d'arxiu web per a les organitzacions que necessiten arxivar el seu propi contingut web com a patrimoni corporatiu, normatiu o amb fins legals.

Els arxivers web generalment recopilen diversos tipus de contingut web, on s'inclouen pàgines web HTML, fulls d'estil, JavaScript, imatges i vídeos. Per altra banda, recullen les metadades dels recursos com, per exemple, el temps d'accés, tipus MIME i mida del contingut. Aquestes metadades són útils per establir l'autenticitat i la procedència de la col·lecció arxivada.

Mètodes de recollida

Recol·lecció remota

La tècnica més comuna d'arxiu web utilitza aranyes web per automatitzar el procés de recol·lecció de pàgines web. Les aranyes solen accedir a pàgines web de la mateixa manera que els usuaris disposen d'un navegador veure la web i, per tant, suposen un mètode relativament senzill de recol·lecció remota de contingut web. Alguns exemples d'aranyes web utilitzades per a l'arxiu web inclouen: Heritrix, HTTrack o Wget. Existeixen diversos serveis gratuïts que poden usar-se per arxivar els recursos web a demanda, utilitzant aquestes tècniques de rastreig web. Aquests serveis inclouen Wayback Machine i WebCite.

Arxiu de bases de dades

La tècnica d'arxiu de bases de dades fa referència a mètodes per arxivar el contingut subjacent de llocs web basats en bases de dades. Generalment, requereix l'extracció del contingut de la base de dades en un esquema estàndard, sovint usant XML. Un cop emmagatzemat en aquest format estàndard, el contingut es pot fer accessible mitjançant un únic sistema d'accés. Aquest enfocament s'exemplifica amb les eines DeepArc i Xinq, desenvolupades per la Biblioteca Nacional de França i la Biblioteca Nacional d'Austràlia, respectivament. DeepArc permet mapejar l'estructura d'una base de dades relacional en un esquema XML (XML schema) i exportar el contingut en un document XML. Xinq, a més, permet que el contingut sigui accessible en línia. Tot i que la disposició original i el comportament de la pàgina web no es pot conservar exactament, Xinq permet replicar la consulta bàsica i la funcionalitat de recuperació d'informació.

Arxivat transaccional

L'arxivat transaccional és un enfocament orientat a esdeveniments, que recull les transaccions reals que tenen lloc entre un servidor web i un navegador web. S'utilitza principalment com a mitjà per preservar el testimoni del contingut que es veu realment en una pàgina web específica en una data determinada. Això pot ser particularment important per a les organitzacions que necessiten complir amb determinats requisits legals o normatius en l'exposició i la retenció d'informació. Un sistema transaccional d'arxiu normalment funciona interceptant cada petició HTTP al servidor web i la seva resposta corresponent, a l'hora que filtra cada resposta per eliminar contingut duplicat i emmagatzema permanentment les respostes com a fluxos de bits (bitstreams).

Dificultats i limitacions

Aranyes web

Els arxius web que es basen en el rastreig web com el seu principal mitjà de recollida es veuen afectats per diverses dificultats en aquest rastreig:

  • El protocol d'exclusió de robots pot sol·licitar a les aranyes no tenir accés a parts d'un lloc web. Tanmateix, alguns arxivers web poden ignorar la sol·licitud i recollir, de tota manera, aquestes parts.
  • Gran part d'un lloc web pot estar amagada a la web profunda. Per exemple, la pàgina de resultats darrere un formulari web pot mentir a la web profunda si les aranyes no poden seguir un enllaç a la pàgina de resultats.
  • Les trampes per aranyes web (crawler traps o spider traps, en anglès) (per exemple, els calendaris) poden causar que una aranya descarregui un nombre infinit de pàgines, de manera que generalment les aranyes es configuren per limitar el nombre de pàgines dinàmiques que rastregen.

De tota manera, és important tenir en compte que un arxiu web natiu, és a dir, un arxiu web totalment navegable, amb vincles operatius, mitjans, etc., només és possible utilitzant la tecnologia d'aranyes. El web és tant gran que per rastrejar una part significativa es necessita una gran quantitat de recursos tècnics. La Xarxa canvia tant ràpidament que, fins i tot, parts d'un lloc web poden canviar abans que una aranya web hagi acabat de rastrejar-lo.

Limitacions generals

Alguns servidors web estan configurats per enviar de resposta diferents pàgines a les sol·licituds d'arxivadors web com ho farien en resposta a les peticions d'un navegador corrent. Això es realitza normalment per enganyar els motors de cerca a dirigir més tràfic d'usuaris a un lloc web i, sovint, es fa per evitar la rendició de comptes o per proporcionar contingut millorat només a aquells navegadors que el poden mostrar.

Els arxivers web no només han d'afrontar els reptes tècnics per arxivar el web, sinó que també han de tenir en compte les lleis de propietat intel·lectual. Peter Lyman afirma que "tot i que el web és considerat popularment com a recurs de domini públic, té drets d'autor; per tant, els arxivers no tenen dret legal per copiar-lo". No obstant això, algunes biblioteques nacionals poden estar autoritzades per fer-ho, gràcies a les lleis del dipòsit legal.

Alguns arxius web sense fins de lucre que es fan accessibles al públic, com WebCite, l'Internet Archive o de la Internet Memory Foundation permeten als propietaris amagar o eliminar el contingut arxivat que no volen que el públic hi tingui accés. Altres arxius web només són accessibles des de certs llocs o han regulat el seu ús. WebCite cita una recent demanda contra l'emmagatzematge en memòria cau de Google, que Google va guanyar.

Aspectes de curació web

La curació web, igual que qualsevol curació digital, implica:

  • Certificació de la fiabilitat i la integritat del contingut de la col·lecció
  • Recollir actius web verificables
  • Proporcionar la cerca i la recuperació d'actius web
  • Continuïtat semàntica i ontològica i la possibilitat de comparació de la col·lecció

A més, a banda de l'exposició sobre els mètodes de recollida de la Web, també cal incloure aquells que faciliten l'accés, la certificació i l'organització. Hi ha un conjunt d'eines populars que aborden aquests passos de curació, el conjunt d'eines per a la curació web de International Internet Preservation Consortium:

  • Heritrix - recull d'actius de la web
  • NutchWAX - cerca de col·leccions d'arxius web
  • Codi obert Wayback Machine - buscar i navegar per les col·leccions de fitxers web utilitzant Nutchwax
  • Web Curator Tool - selecció i gestió de la col·lecció web

Altres eines de codi obert per a la manipulació d'arxius web:

  • Eines de la WARC (Web ARChive) - per crear, llegir, analitzar i manipular arxius de la WARC de forma programada
  • Cercadors Google - per a la indexació i recerca de text complet i metadades en arxius web

Com a eines gratuïta, però no de codi obert també existeix:

  • WARC Software Development Kit (WSDK) que representa un conjunt de mòduls Erlang simple, compacte i altament optimitzats per manipular Erlang (crear/llegir/escriure) el format d'arxiu WARC ISO 28500:2009.

Hi ha una normalització feta per la ISO anomenat format Web ARChive.

Avaluació

Uns investigadors de la Universitat d'Old Dominion van crear unes mètriques per a avaluar quantitativament la capacitat dels crawlers dels serveis d'arxiu web. Aquesta mètrica consisteix en una sèrie de tres grups de proves:

  • 1. Proves bàsiques
    • 1a Imatge local amb URI relativa
    • 1b Imatge local amb URI absoluta
    • 1c Imatge remota amb URI absoluta
    • 1d Contingut en línia, imatge codificada
    • 1e Imatge remota amb URI sense l'esquema
    • 1f CSS inclòs recursivament
  • 2. Proves de JavaScript
    • 2a Guió local amb URI relativa que carrega un recurs local
    • 2b Guió remot amb URI absoluta que carrega un recurs local
    • 2c Guió en línia que manipula el DOM en temps durant el temps d'execució
    • 2d Guió en línia amb substitució de la imatge mitjançant Ajax, carregant un recurs local
    • 2e Guió en línia amb substitució de la imatge mitjançant Ajax seguint la política del mateix origen entenent els mals resultats com a falsos positius
    • 2f Guió en línia que manipula el DOM després del retard
    • 2g Guió en línia que carrega el contingut reaccionant a la interacció, introduint recursos
    • 2h Guió en línia que afegeix el CSS local durant el temps d'execució
  • 3. Proves de continguts avançats
    • 3a Llenç de l'HTML amb contingut obtingut en el temps d'execució
    • 3b Imatge remota emmagatzemada que després és recuperada del HTML5 localStorage
    • 3c Contingut incrustat mitjançant iframe
    • 3d Temps d'execució dels objectes binaris

Referències

  1. Habibzadeh, Parham «Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals». Applied Clinical Informatics, Vol. 4, 2013, pàg. 455-464. DOI: http://dx.doi.org/10.4338/ACI-2013-07-RA-0055. ISSN: 1869-0327.
  2. Habibzadeh, Parham «Are current archiving systems reliable enough?». International Urogynecology Journal, Vol. 26, Issue 10, Octubre 2015, pàg. 1553-1553. DOI: 10.1007/s00192-015-2805-7. ISSN: 0937-3462.
  3. Lyman, Peter. «Archiving the World Wide Web». A: Building a National Strategy for Preservation: Issues in Digital Media Archiving. CLIR, 2002. ISBN 1-887334-91-2 . 
  4. 4,0 4,1 4,2 4,3 Kelly, Nelson i Weigle, 2014, p. 25.
  5. Kelly, Nelson i Weigle, 2014, p. 26-27.

Bibliografia