min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

国別プロキシリストを画像に落とす

国別プロキシリストなるサイトを見つけた。

f:id:min117:20190901100457p:plain

 

各国のproxyが載っているようだ。

f:id:min117:20190901095508p:plain

proxyのリンクに入ると各国にある串の一覧が見られる。

 

どうも怪しい広告が入っているが情報としては悪くない。こういうときは必ずシークレットモードでアクセスする。

f:id:min117:20190901095903p:plain

うむ。

 

国別プロキシサイト

  

リンクが大量にあるので1個1個開くなんてやってない。

f:id:min117:20190901100457p:plain

リンクを踏んでページを開き、内容を画像に落とすまでを自動化することを考える。

 

 

 

リンクを踏んで飛んだページのアドレス欄を見ると

f:id:min117:20190901100606p:plain

「q=国の識別番号」でクエリを投げればいいみたい。国別の2文字(JP)を取り出す必要がある。

 

htmlを解析してもいいけどダルいので、ブラウザからコピペした文字列をvimに貼り付けて変換でやる。

 

タブをスペースに、スペースをアンダーバーに。

f:id:min117:20190901101017p:plain

こうなる。

f:id:min117:20190901100827p:plain

1行の最初の2文字(AC)が国を表すので、awkで取り出す。

$ cat proxy.txt | awk -F_ '{print $1}' | tee -a proxy2.txt

$ cat proxy2.txt

f:id:min117:20190901101311p:plain

 

あとはfor文を回してこれら2文字の前にリンクをくっつけてやればいい。

$ for i in $(cat proxy2.txt); do echo "$i"; echo 'http://xxxxxxx.net/search.cgi?q='"$i" | tee -a proxy3.txt; done

f:id:min117:20190901101627p:plain

 

$ cat proxy3.txt

f:id:min117:20190901102108p:plain

できた。

 

あとはこのリストを、wkhtmltoimageに食わせるだけ。引数にURLを指定したらjpgに落とす自前のシェルスクリプトでやる。

min117.hatenablog.com

 

$ for i in $(cat proxy3.txt); do echo "$i"; ./mywkhtmltoimage.sh "$i"; done

f:id:min117:20190901102343p:plain

リンク先を画像に落としてくれる。ファイル名はtitle要素になるけど、空白やスペースはアンダーバーに置き換える。

f:id:min117:20190901102708p:plain

 

画像になった。

f:id:min117:20190901102856p:plain

いつまで使えるか分からないけどしばらく参考にしてみる。