min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

bash curl -sSオプション で「URLのタイトル要素を取得できないときにエラー」を出す

以前作った「URLからPDFを作成するスクリプト」を改良する。

min117.hatenablog.com

 

例えばこういう記事

https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni

「がんばっても報われない社会が待っている」東大の入学式で語られたこと【全文】

 

f:id:min117:20190413053324p:plain

 

のURLを貼り付けると

f:id:min117:20190413054350p:plain

 

PDFになって

f:id:min117:20190413053415p:plain

 

「タイトル名.pdf」で保存される。

f:id:min117:20190413054651p:plain

気になる記事はどんどんスクラップできるうえ、サーバ上の一箇所にまとまって保存されていくので最高に使いやすい。自分の興味一覧。

 

 

 

しかし、URLのタイトル要素を取得できないケースがある。上記の記事だと curl -s が戻りを返さない

$ curl -s https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni

f:id:min117:20190413055054p:plain

何かエラーが起きている。

 

この場合は curl -sS オプションをつけると良いようだ。

qiita.com

f:id:min117:20190413055305p:plain

 

やってみる。

$ curl -shttps://www.buzzfeed.com/jp/saoriibuki/tokyo-uni

f:id:min117:20190413055457p:plain

certificate probrem(証明書関連のエラー)が起きていた。httpsだからか。証明書を読めないと(?)うまくhtmlを取ってこれないようだ。

 

エラーを出せることがわかったので、以前作ったスクリプトを改良する。

$ vim mywkhtmltopdf.sh

f:id:min117:20190413060040p:plain
58行目と59行目を -sS オプションにした。

 

タイトル要素が無いときは「EMPTY_TITLE_」という名前のファイルができるようにする。

f:id:min117:20190413060108p:plain

f:id:min117:20190413060233p:plain

f:id:min117:20190413060311p:plain

wkhtmltopdf コマンドの単なるラッパーでしかないけど、自動タイトル名付与機能はかなり便利。やはり名前は大事だ

 

 

それにしても、冒頭記事の、なんと素晴らしいこと。

https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni

 

時勢を捉えた、痛烈な批判。

f:id:min117:20190413061115p:plain

 

社会を見る目。

f:id:min117:20190413061152p:plain

 

f:id:min117:20190413061219p:plain

 

怒り。

f:id:min117:20190413061333p:plain

 

現実。

f:id:min117:20190413061420p:plain

 

寛容。

f:id:min117:20190413061507p:plain

弱さを認める強さ。