Aspirer un site web

Linux

Il arrive toujours un moment, où vous en avez marre d'avoir à retourner chercher des informations sur un site web distant très lent ou quand vous êtes offline... Vous l'utilisez tellement souvent, que vous arrivez à rêver de l'avoir en local.

Malheureusement, toutes vos tentatives échouent, surtout à cause d'un fichier robots.txt très peu permissif, qui interdit certains User-Agent, comme votre WGET préféré.

Mais, il y a une solution :

wget -k -w 1 -e robots=off --user-agent="" -m http://votre_URL


Grâce à cette commande vous pouvez donc aspirez (faire un miroir) l'ensemble du site pour une consultation off-line.

Il est important de laisser le "-w 1" qui permet de laisser 1 seconde entre chaque requête sans quoi, vous risquez de saturer le site Web, et ce n'est pas très sympa.

Le "--user-agent=""" permet de supprimer les limitations côté serveur (assez rare, mais, on ne sait jamais). Il peut être remplacer par un User-Agent de navigateur comme Internet Explorer ou Firefox.

Le "-m" permet d'indiquer que nous souhaitons faire un miroir du site.

Le "-k" permet de modifier les liens pour que les urls pointent en local.

Dans le cas où des éléments du site sont réparti sur plusieurs domaines (les images sont sur un autre domaine que le site principal, par exemple : img.votresite.com), il vous faut ajouter les options "-H -D www.votresite.com,img.votresite.com"

Trackbacks

    No Trackbacks

Comments

Display comments as (Linear | Threaded)

  1. pouf says:

    Merci pour l'astuce, je l'ai tellement cherché.


Add Comment



To prevent automated Bots from commentspamming, please enter the string you see in the image below in the appropriate input box. Your comment will only be submitted if the strings match. Please ensure that your browser supports and accepts cookies, or your comment cannot be verified correctly.
CAPTCHA

Enclosing asterisks marks text as bold (*word*), underscore are made via _word_.
Standard emoticons like :-) and ;-) are converted to images.
BBCode format allowed