仕事でtesseractを使う機会あり。面白さにハマる。
要はOCR。画像や写真に埋まっている文字列をテキストにできる。
RaspberryPiでも使えるようだ。早速試す。
irukanobox.blogspot.com
環境は RaspberryPi3。raspbian。
$ uname -a
あらかじめ
$ sudo apt-get -y update && sudo apt-get -y upgade
を済ませておく。
tesseractをインストール。
$ sudo apt-get -y install tesseract-ocr tesseract-ocr-jpn
読み取る画像は今日のニュースにする。とりあえずこれ。
macOSでハードコピー(画面コピー)を撮って画像にする。
RaspberryPiのWebサーバ上に置く。
OCR実行
$ tesseract -l jpn ocr_001_habu.png stdout
なんと、かなり精度がいい。さすがにRaspberryPi3だとCPUもメモリも非力なのでそこそこ時間はかかるが、日本語はほぼ正確に再現されている。
強いて言えば数字の「1」がなぜか漢数字の「一」になっているが、これはたぶん設定で直せる気がする。
もう一度、並べて見てみる。
素晴らしい。
次記事ではこれをシェルスクリプトにして
引数にとった画像をOCRスキャンできるようにし
さらにphpでこんな感じの画面を作って
「アップロードしたPDFをJPGに変換して」
「そのJPGから文字を読み取る(OCR)」
機能を作ることにする。