Wiki CgX

Parce que j'ai un cerveau, mais pas trop.

Outils pour utilisateurs

Outils du site


it:linux-divers:wget

wget

Aspirer un site en ligne de commande

wget -r -k -np --user-agent=Firefox url-du-site

-r –recursive : Active le téléchargement récursif.

-k –convert-links : Une fois que le téléchargement est terminé, convertit les liens du document pour qu'il soit consultable en local. Ceci affecte non seulement les liens hypertextes, mais aussi toute partie du document qui lie un contenu extérieur, comme les images, les liens vers les feuilles de style, les hyperliens vers du contenu non-HTML, etc.

-np –no-parent : Ne pas remonter dans les répertoires parents. C'est une option utile, puisqu'elle garantit que seuls les fichiers en dessous d'une certaine hiérarchie seront téléchargés.

Options supplémentaires

-A.<extension> Ne télécharger que les fichiers de cette extension

-c Continue : Continer un téléchagement interrompu

Si le robots.txt fait chier...

wget -r -k -np --user-agent=Firefox -e robots=off url-du-site

Récupérer une liste d'URLs depuis un fichier

wget -i <le-fichier.txt> 
it/linux-divers/wget.txt · Dernière modification: 17 Nov 2020 :: 13:41 (modification externe)