min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

pdf

電子版法令検索サービス e-Gov 開発者ポータルに登録する(電子申請API)

電子版法令検索サービス「e-Gov」。仕事でしょっちゅう使う。めっちゃ使いやすい。 総務省が所管だけど、作ってるのは当然総務省のアホ役人ではなくて、委託された先の民間会社。たぶんそこのエンジニアがスゴイ。いや、その業者を動かしてこのサービスを作…

はてなブログの全記事をPDFにバックアップ

2年前くらいに、自分のブログの記事をPDFにバックアップするスクリプトを書いた。 min117.hatenablog.com 年末だし。2年ぶりに全記事をバックアップする。 まずは、全ての記事のURLを取得する必要がある。Google Analyticsを使う(ブログ始めて早いうちに登…

Python3 PDFにページ番号を付与する

PDFにページ番号を付与したい。ユーザー向けにマニュアルや手引きを作っている人はけっこうコレに出くわすと思う。 マニュアルは様々なファイル形式の合体で作られる。例えば本文はWord(.doc)や一太郎(.jtd)で、図はPowerPoint(.ppt)で、表はExcel(.x…

PHP エラー箇所を特定するには php ファイル名.php とする

phpのソースが大きくなるとコードのどこでエラーになったか分かりにくくなる。 ソースを見る。 $ vim doLSglob.php 1700行目から1746行目までしか手を入れていないはずだけど、どこだろう… if文のカッコの対応も正しいし。間違ってないような気がする。 // …

コロナウイルスに関する記事をPDFにする

2019年3月9日。新型コロナウイルスは日本中に蔓延。 マスクの供給不足について政府の無策を指摘した報道に対して厚生労働省が番組名を挙げて批判するという、恐ろしい事態になっている。 税金で運営される公機関であるはずの厚生労働省が「特定の番組のみ」…

fedora 30 pdftotextコマンドでPDFファイルからテキストを取り出す(HTML→PDF→txt)

PDFファイルからテキストを取り出せるらしい。 www.hiihah.info やってみる。 使う記事はこれ。 クルーズ船「ダイヤモンド・プリンセス」の扱いを誤った政府の無策により、全国にコロナウイルスが蔓延してしまった2020/2/27(木)、ときの首相が突然「来週か…

テキストファイル → PDFに変換 → jpgに変換 → AmazonCloudDriveに無限に保存する

コマンド一発でテキストファイルをPDF化できるらしい。 paps コマンドでテキストファイルをいったんpsファイルに変換して、それをps2pdf コマンドに食わせることで実現できる。 テキストをわざわざPDFにして何が嬉しいの?と思うかもしれないが、実はPDFから…

PHP7 Bootstrap4で「PDFファイルの本棚」を実装する(PDFファイル一覧化+クリック再生)

世の中の気になるニュースを目にしたそのタイミングで自分のサーバに時系列に保存したい。 欲しい情報の ・URLを貼り付ければ ・PDFファイルにして ・時系列(降順)に ・サーバに保存してくれる 機能は以前実装した。こんなの。 http://min117.hatenablog.c…

RaspberryPi3 に tesseract をインストールして「画像から文字の読み取り」(OCR)を試す

仕事でtesseractを使う機会あり。面白さにハマる。 要はOCR。画像や写真に埋まっている文字列をテキストにできる。 RaspberryPiでも使えるようだ。早速試す。irukanobox.blogspot.com 環境は RaspberryPi3。raspbian。 $ uname -a あらかじめ $ sudo apt-get…

bash curl -sSオプション で「URLのタイトル要素を取得できないときにエラー」を出す

以前作った「URLからPDFを作成するスクリプト」を改良する。 min117.hatenablog.com 例えばこういう記事 https://www.buzzfeed.com/jp/saoriibuki/tokyo-uni 「がんばっても報われない社会が待っている」東大の入学式で語られたこと【全文】 のURLを貼り付け…

RaspberryPi3 に LibreOffice をインストールする(大量エクセルファイルを一括でPDFに変換する準備)

RaspberryPi 3 に LibreOfficeをインストールしてみる。 やりたいのはこれ。大量の xlsx ファイルを一括でPDFにしたい。 qiita.com 素晴らしい記事だ。 LibreOfficeに含まれるPDF変換機能を使って、特定のフォルダにあるエクセルファイルを一括でPDFにしてサ…

bash pdftoppmコマンドでPDFを高画質JPG画像に変換する → AmazonCloudDrive(容量無制限)に保存

PDFファイルをJPG画像に変換するLinuxコマンド pdftoppm がかなり便利。 「PDFはPDFのまま持っておけばいいじゃん?なんでワザワザ画像に変換するの?意味あるの?」と思うかもしれないが、これが意味がある。なぜなら 画像ならAmazon Cloud Drive に容量無…

bash はてなブログのURLを指定したら「タイトル名.pdf」に出力するスクリプト

指定したURLをPDFに変換するスクリプトを、以前作った。 min117.hatenablog.com 指定したURLのタイトルをとってくるスクリプトも、さっき作った。 min117.hatenablog.com これを組み合わせて、指定したURL(引数1)をPDFに変換して、「URLの<title>名.pdf…

bash はてなブログの記事の<title>だけをワンライナーで取得する

はてなブログの記事のタイトル部分だけをワンライナーで取得したい。ちょっと作ったらできた。早起きは三文の徳。 $ curl -s http://min117.hatenablog.com/entry/2017/07/18/213239 | egrep '.*<title>.*</title>.*' | awk -F\> '{print $2}' | awk -F\< '{print $1}' ワン…

bash はてなブログの全記事を自動でPDFにするスクリプト

ブログ記事数もそこそこ増えてきたけど今まで一度もバックアップを取っていない。Webサービスなんてしょせん他人のフンドシ(提供する場所)上で作っているものなので、例えばはてなブログが倒産したり、突然ブログサービスをやめたら全て消えてしまう。 信…