以前作った「URLからPDFを作成するスクリプト」を改良する。
例えばこういう記事
https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni
「がんばっても報われない社会が待っている」東大の入学式で語られたこと【全文】
のURLを貼り付けると
PDFになって
「タイトル名.pdf」で保存される。
気になる記事はどんどんスクラップできるうえ、サーバ上の一箇所にまとまって保存されていくので最高に使いやすい。自分の興味一覧。
しかし、URLのタイトル要素を取得できないケースがある。上記の記事だと curl -s が戻りを返さない。
$ curl -s https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni
何かエラーが起きている。
この場合は curl -sS オプションをつけると良いようだ。
やってみる。
$ curl -sS https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni
certificate probrem(証明書関連のエラー)が起きていた。httpsだからか。証明書を読めないと(?)うまくhtmlを取ってこれないようだ。
エラーを出せることがわかったので、以前作ったスクリプトを改良する。
$ vim mywkhtmltopdf.sh
58行目と59行目を -sS オプションにした。
タイトル要素が無いときは「EMPTY_TITLE_」という名前のファイルができるようにする。
wkhtmltopdf コマンドの単なるラッパーでしかないけど、自動タイトル名付与機能はかなり便利。やはり名前は大事だ。
それにしても、冒頭記事の、なんと素晴らしいこと。
https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni
時勢を捉えた、痛烈な批判。
社会を見る目。
怒り。
現実。
寛容。
弱さを認める強さ。