5 berichten aan het bekijken - 1 tot 5 (van in totaal 5)
  • Q:

    Bijdrager
    computer space

    Verwijderd

    Verwijderd


    Bijdrager
    Bitcrumb

    In de F.A.Q. gezocht op ‘crawler’, waardoor ik op deze pagina terechtkwam:
    http://www.archive.org/about/faqs.php#5

    Daar las ik het volgende:

    Why are some sites harder to archive than others?

    If you look at our collection of archived sites, you will find some broken pages, missing graphics, and some sites that aren’t archived at all. Here are some things that make it difficult to archive a web site:
    Robots.txt — We respect robot exclusion headers.
    … (cut) …
    Unknown sites — The archive contains crawls of the Web completed by Alexa Internet. If Alexa doesn’t know about your site, it won’t be archived. Use the Alexa Toolbar (available at http://www.alexa.com), and it will know about your page. Or you can visit Alexa’s Archive Your Site page at http://pages.alexa.com/help/webmasters/index.html#crawl_site.

    Die link bleek erg behulpzaam. Blijkbaar gebruiken ze Alexa en is de user-agent: ia_archiver.


    Bijdrager
    iJoost

    Ze veroorzaken trouwens her en der wat wrevel op het net. Dus misschien is dat “af-bitchen” nog niet eens zo gek…;-)


    Bijdrager
    computer space

    Verwijderd


    Bijdrager
    iJoost

    Mmm… Zou ook best eens kunnen dat een deel van de wrevel waar ik het over had te maken had met het niet gehoorzamen van de robots.txt of iets dergeljks. Ik weet het niet precies meer… Google anders even, dan komen die discussies vanzelf wel bovendrijven schat ik.

5 berichten aan het bekijken - 1 tot 5 (van in totaal 5)

Je moet ingelogd zijn om een reactie op dit onderwerp te kunnen geven.