Spider

In de wereld van vandaag heeft Spider een ongekende relevantie verworven. Of het nu op persoonlijk, professioneel, sociaal of politiek vlak is, Spider speelt een fundamentele rol in ons dagelijks leven. Door de geschiedenis heen is var1 het voorwerp geweest van studie, debat en bewondering, maar nooit eerder heeft het zo’n prominente plaats in de samenleving ingenomen als vandaag de dag. Vanaf het begin tot het heden is Spider geëvolueerd en aangepast aan de veranderingen en uitdagingen waarmee het in de loop van de tijd te maken heeft gehad. In dit artikel zullen we de impact van Spider op verschillende aspecten van het dagelijks leven nauwkeurig onderzoeken en hoe dit de manier heeft beïnvloed waarop we ons verhouden tot de wereld om ons heen.

Voor het autotype Spider, zie Roadster.

Een spider (ook wel webcrawler genoemd) is een bot die het wereldwijde web op een methodische en geautomatiseerde manier doorbladert. Spiders maken veelal een lokale kopie van de gevonden pagina's om deze later te kunnen verwerken en indexeren voor bijvoorbeeld zoekmachines.

De werkingswijze is eenvoudig: de spider begint met een lijst met URL's en bezoekt deze een voor één, waarbij alle hyperlinks die in de bezochte pagina's voorkomen aan de lijst van te bezoeken URL's worden toegevoegd. Op deze wijze kan een spider vrijwel alle publiekelijk toegankelijke pagina's op het internet langsgaan. Veelal komen spiders met een vaste regelmaat langs om hun index actueel te houden.

Spiders dienen zich tijdens hun rondgang correct te gedragen omdat ze pagina's sneller kunnen opvragen en verwerken dan een mens. De meeste spiders nemen de moeite om pagina's van één webserver niet allemaal achter elkaar op te vragen maar deze over een tijdsbestek te spreiden om te voorkomen dat de betreffende webserver overbelast raakt.

Robots.txt

Voor eigenaars en beheerders van websites zijn methodes geïntroduceerd om het gedrag van spiders te beïnvloeden. Zo kan in de hoofdmap van de website een tekstbestandje genaamd 'robots.txt' worden gezet met beperkingen voor één of meerdere spiders. Er kan worden aangegeven welke delen van de website door bepaalde spiders niet mogen worden bezocht. Alvorens een website te bezoeken zal een goede spider controleren of dit bestand bestaat en of er voor de betreffende spider beperkingen staan aangegeven.

Sommige spiders negeren robots.txt. Dit kan nadelige gevolgen hebben voor de website die ze bezoeken. Om dit tegen te gaan kan men op een webserver de IP-adressen van de betreffende spiders blokkeren. Robots die zich goed gedragen houden zich aan de regels die in robots.txt staan.

Meta-tags

Het is mogelijk in de header van individuele webpagina's meta-tags op te nemen voor robots. Als deze meta-tag niet aanwezig is, gaat de robot uit van de standaardwaarde:

<meta name="robots" content="index,follow">

Het content-element kent de volgende variaties:

  • index / noindex – wel of niet indexeren van de pagina
  • follow / nofollow – wel of niet volgen van hyperlinks op de pagina
  • noarchive – de pagina niet lokaal archiveren
  • Unavailable_after - Na een bepaalde periode mag de pagina niet meer geïndexeerd worden
  • Noimageindex - De afbeeldingen op de pagina mogen niet geïndexeerd worden
  • Notranslate - De zoekmachine mag geen vertaalde versie van de pagina weergeven in de zoekresultaten
  • Nosnippet - Er mogen geen fragmenten in de zoekresultaten weergeven worden voor deze pagina
  • Indexifembedded: Met deze tag, kan content worden geïndexeerd wanneer het in een Iframe of andere HTML tags staat. Zelfs als het een noindex tag heeft.

Index en Follow hebben niet direct effect, standaard wordt een pagina geïndexeerd en worden de hyperlinks op een pagina gevolgd.

Useragent

Een spider meldt zich aan met een bepaalde useragent. Bijvoorbeeld, de spiders van Google melden zich met useragent Googlebot of om compleet te zijn 'Googlebot/2.X (+http://www.googlebot.com/bot.html)'. Bedrijven die spiders inzetten doen er goed aan om uit te leggen wat ze beogen met de spider en welk gedrag deze vertonen. De grotere zoekmachines doen dat al.

Spiders worden niet alleen ingezet om data te verzamelen voor zoekmachines. Er zijn spiders actief die op soortgelijke wijze het internet afstruinen op zoek naar e-mailadressen. Een e-mailadres heeft een standaard opmaak en is daardoor goed herkenbaar. De verzamelde e-mailadressen worden vervolgens verkocht om er spam naar te verzenden.

Noot

  1. Zie bijvoorbeeld het tekstbestand robots.txt van Wikipedia.
  2. MediaWiki biedt de mogelijkheid om een pagina voor dit doel te voorzien van een magic word.