min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

fedora 30 pdftotextコマンドでPDFファイルからテキストを取り出す(HTML→PDF→txt)

PDFファイルからテキストを取り出せるらしい。

www.hiihah.info

やってみる。

 

使う記事はこれ。

f:id:min117:20200301192526p:plain 

クルーズ船「ダイヤモンド・プリンセス」の扱いを誤った政府の無策により、全国にコロナウイルスが蔓延してしまった2020/2/27(木)、ときの首相が突然「来週から全国の学校を休校にします」などと決めてしまったものだから全国が大混乱。同年2/29(日)、安倍晋三首相は慌てて「国民に向けた記者会見」を行うも、突然の休校について全く説明がなかった。

 

これについて、政府に説明責任を果たすよう追及する記事。

news.yahoo.co.jp

 

HTMLをPDFにする機能は実装済み。

f:id:min117:20200301190857p:plain

min117.hatenablog.com

 

この機能でPDFにしたのがこれ。

20200301_183115_新型コロナ対策・首相記者会見で私が聞きたかったこと~政 府は国民への説明責任を果たせ.pdf

f:id:min117:20200301192526p:plain
ここからテキストを取り出す

 

pdftotext 20200301_183115_新型コロナ対策・首相記者会見で私が聞きたかったこ と~政府は国民への説明責任を果たせ.pdf  

f:id:min117:20200301192353p:plain

一瞬で終わった。本当に取り出せているのか?

 

$ cat 20200301_183115_新型コロナ対策・首相記者会見で私が聞きたかったこ と~政府は国民への説明責任を果たせ.pdf  

f:id:min117:20200301192839p:plain

すごい。バッチリ取り出せてる。

 

ということは

$ for i in *pdf; do echo "$i"; pdftotext "$i"; done

f:id:min117:20200301193103p:plain

とかやれば、たくさんのPDFファイルを一括でテキストファイルに落とせるわけだ。素晴らしい。

 

既に気になった記事のURLを貼り付けるとPDFを作る機能までは実装済みだから

f:id:min117:20200301193457p:plain

ここで「PDF作成」を押したタイミングで記事のテキストファイルも保存する仕様に変更する。次回やってみる。



なお、今回とは逆にテキストファイルからPDFを作ることもできる。

min117.hatenablog.com

Linuxほんと最高。

 

 

 

memo

f:id:min117:20200301190742p:plain