min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

RaspberryPi3 に tesseract をインストールして「画像から文字の読み取り」(OCR)を試す

 

仕事でtesseractを使う機会あり。面白さにハマる。

f:id:min117:20190604231012p:plain

要はOCR。画像や写真に埋まっている文字列をテキストにできる。

 

RaspberryPiでも使えるようだ。早速試す。
irukanobox.blogspot.com

 

環境は RaspberryPi3。raspbian。

$ uname -a

f:id:min117:20190604232447p:plain

あらかじめ

$ sudo apt-get -y update && sudo apt-get -y upgade

を済ませておく。

 

tesseractをインストール。

$ sudo apt-get -y install tesseract-ocr tesseract-ocr-jpn 

f:id:min117:20190604230847p:plain

 

読み取る画像は今日のニュースにする。とりあえずこれ。

www.asahi.com

 

macOSでハードコピー(画面コピー)を撮って画像にする。

ocr_001_habu.png

f:id:min117:20190604232040p:plain

 

RaspberryPiのWebサーバ上に置く。

f:id:min117:20190604232743p:plain

 

OCR実行

$ tesseract -l jpn ocr_001_habu.png stdout

f:id:min117:20190604231916p:plain

なんと、かなり精度がいい。さすがにRaspberryPi3だとCPUもメモリも非力なのでそこそこ時間はかかるが、日本語はほぼ正確に再現されている。

強いて言えば数字の「1」がなぜか漢数字の「一」になっているが、これはたぶん設定で直せる気がする。

 

 

 

もう一度、並べて見てみる。

f:id:min117:20190604232040p:plain f:id:min117:20190604231916p:plain

素晴らしい。

 

次記事ではこれをシェルスクリプトにして

f:id:min117:20190605072813p:plain

引数にとった画像をOCRスキャンできるようにし

 

さらにphpでこんな感じの画面を作って

f:id:min117:20190604233711p:plain

「アップロードしたPDFをJPGに変換して」

「そのJPGから文字を読み取る(OCR

機能を作ることにする。