国別プロキシリストなるサイトを見つけた。
各国のproxyが載っているようだ。
proxyのリンクに入ると各国にある串の一覧が見られる。
どうも怪しい広告が入っているが情報としては悪くない。こういうときは必ずシークレットモードでアクセスする。
うむ。
リンクが大量にあるので1個1個開くなんてやってない。
リンクを踏んでページを開き、内容を画像に落とすまでを自動化することを考える。
リンクを踏んで飛んだページのアドレス欄を見ると
「q=国の識別番号」でクエリを投げればいいみたい。国別の2文字(JP)を取り出す必要がある。
htmlを解析してもいいけどダルいので、ブラウザからコピペした文字列をvimに貼り付けて変換でやる。
タブをスペースに、スペースをアンダーバーに。
こうなる。
1行の最初の2文字(AC)が国を表すので、awkで取り出す。
$ cat proxy.txt | awk -F_ '{print $1}' | tee -a proxy2.txt
$ cat proxy2.txt
あとはfor文を回してこれら2文字の前にリンクをくっつけてやればいい。
$ for i in $(cat proxy2.txt); do echo "$i"; echo 'http://xxxxxxx.net/search.cgi?q='"$i" | tee -a proxy3.txt; done
$ cat proxy3.txt
できた。
あとはこのリストを、wkhtmltoimageに食わせるだけ。引数にURLを指定したらjpgに落とす自前のシェルスクリプトでやる。
$ for i in $(cat proxy3.txt); do echo "$i"; ./mywkhtmltoimage.sh "$i"; done
リンク先を画像に落としてくれる。ファイル名はtitle要素になるけど、空白やスペースはアンダーバーに置き換える。
画像になった。
いつまで使えるか分からないけどしばらく参考にしてみる。