PDFファイルからテキストを取り出せるらしい。
やってみる。
使う記事はこれ。
クルーズ船「ダイヤモンド・プリンセス」の扱いを誤った政府の無策により、全国にコロナウイルスが蔓延してしまった2020/2/27(木)、ときの首相が突然「来週から全国の学校を休校にします」などと決めてしまったものだから全国が大混乱。同年2/29(日)、安倍晋三首相は慌てて「国民に向けた記者会見」を行うも、突然の休校について全く説明がなかった。
これについて、政府に説明責任を果たすよう追及する記事。
HTMLをPDFにする機能は実装済み。
この機能でPDFにしたのがこれ。
20200301_183115_新型コロナ対策・首相記者会見で私が聞きたかったこと~政 府は国民への説明責任を果たせ.pdf
ここからテキストを取り出す。
$ pdftotext 20200301_183115_新型コロナ対策・首相記者会見で私が聞きたかったこ と~政府は国民への説明責任を果たせ.pdf
一瞬で終わった。本当に取り出せているのか?
$ cat 20200301_183115_新型コロナ対策・首相記者会見で私が聞きたかったこ と~政府は国民への説明責任を果たせ.pdf
すごい。バッチリ取り出せてる。
ということは
$ for i in *pdf; do echo "$i"; pdftotext "$i"; done
とかやれば、たくさんのPDFファイルを一括でテキストファイルに落とせるわけだ。素晴らしい。
既に気になった記事のURLを貼り付けるとPDFを作る機能までは実装済みだから
ここで「PDF作成」を押したタイミングで記事のテキストファイルも保存する仕様に変更する。次回やってみる。
なお、今回とは逆にテキストファイルからPDFを作ることもできる。
Linuxほんと最高。
memo