12.4. Webページのダウンロード 【wget】

$ wget [オプション] URL

wget とは、Web サイトや FTP サイトの URL を指定して、その Web ページを自分のローカルハードディクスにダウンロードするツールです。多量のファイルを無人で自動ダウンロードする場合などにとても便利なツールです。

wget は、再帰的(HTML のリンクをたどること)にファイルをダウンロードすることもできます。さらに、途中でコネクションが切れても、その部分から再びダウンロードすることもできます。wget には多くのオプションがありますので、ここでは基本的な使用方法のパターンをいくつか紹介します。より詳細な情報は、man ページを参照してください。

指定したページのみをダウンロードするには次のようにコマンドを実行します。

$ wget http://www.turbolinux.gr.jp/index.html

再帰的にページをダウンロードするには -r オプションを指定します。

$ wget -r http://www.turbolinux.gr.jp/index.html

レベルはデフォルトのレベル 5 で回収します。レベルとは、再帰する回数のことです。 最初のページはレベル 0 で、最初のページからリンクされたページや画像はレベル 1、リンク先のページからリンクしているページや画像はレベル 2 となります。

再起のレベルを指定してダウンロードするには -l オプションを指定します。次の例ではレベル 2 までページをダウンロードします。

wget -r -l 2 http://www.turbolinux.gr.jp/index.html

相対リンクだけをたどりダウンロードするには -L オプションを指定します。相対リンクとは簡単に言うと http:// で始まるリンク以外のリンクのことを指します。

wget -r -l 5 -L http://www.turbolinux.gr.jp/index.html

違うホストも再帰の対象にするには -H オプションを指定します。

wget -r -l 5 -H http://www.turbolinux.gr.jp/index.html

リンク先が FTP の場合も再起するには --follow-ftp というオプションを指定します。

wget -r -l 2 --follow-ftp -H http://www.turbolinux.gr.jp/index.html

ファイルの拡張子を指定して、ダウンロードするには -A オプションを指定します。以下の例では jpg ファイルと gif ファイルだけをダウンロードします。

wget -r -l 2 -A .jpg,.gif http://www.turbolinux.gr.jp/index.html