min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

PHP URLを開いてtitleをとってくるだけのWebスクレイピングコード(Webクローラ)

f:id:min117:20201122090440p:plain

 

目に留まった記事。

www.php.net

 

php.iniallow_url_fopenを有効にした場合、 ファイル名をパラメータとする関数の多くで HTTP および FTPのURL を使用することができます。

 

ほう。自前のサーバで見てみよう。

$ cat /etc/php.ini | grep allow_url

f:id:min117:20201122084701p:plain

お。有効だ。

 

コードは写経する。

f:id:min117:20201122084023p:plain

ただし、正規表現のところだけは str1 に切り出した。書き換えしやすいように。

f:id:min117:20201122083910p:plain

このブログのタイトルを取ってくるだけのお試しコード。

 

自宅サーバで動かす。こうなる。

f:id:min117:20201122084528p:plain

うむ。シンプルだけど良い。正規表現のところを書き換えればなんでも取ってこれる。WebスクレイピングないしWebクローラというやつだ。

 

サーバの環境はこれ。

$ uname -a

$ php -v

$ apachectl status

f:id:min117:20201122084348p:plain

※ ちなみにapachectl status には「php経由で走らせた動画圧縮(HandBrakeCLI)プロセス」が表示されるのか。今気づいた。面白い。

 

クローラ楽しいなやっぱ。Python3と比べてみる。後日。

 

techplay.jp