min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

RaspberryPi3 にMeCabをインストールする(Python3環境)

前回記事で fastText をインストールしたので、ひき続きMeCabをインストールする。

min117.hatenablog.com

 

参考記事はこれ。

qiita.com

 

前提

 ・python3で試す。python2.7は無視。

 ・2018/9/2時点

f:id:min117:20180902130639p:plain

 

 

$ sudo apt-get update

f:id:min117:20180902133600p:plain

f:id:min117:20180902133603p:plain

 

$ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 python-mecab

f:id:min117:20180902134049p:plain

 

mecabの動作を試す。

$ mecab

すもももももももものうち

隣の客はよく柿食う客だ

f:id:min117:20180902134057p:plain

こういう、コトワザのような短い文章は問題なく分割できている。

 

 

 

次に、ニュース記事のような(流行りの)文章を正確に分割できるか試す。ふだんの甲子園は興味ないが、今回は金足農業高校に感動させられたので、その記事を使ってみる。

www.sakigake.jp

$ mecab

佐竹敬久秋田県知事は30日、第100回全国高校野球選手権記念大会(甲子園)で、県勢として103年ぶりに準優勝した金足農野球部に県民栄誉章を授与すると明らかにした。甲子園出場報告のため県庁を訪れた選手らに伝えた。

f:id:min117:20180902134304p:plain

分割が細かすぎる。「第100回全国高校野球選手権大会(甲子園)」は1単語として認識してほしい。「金足農」も1単語として認識できないと、流行りの単語に対応しているとは言えない

 

これを可能にするのが 流行りの単語に対応した辞書 mecab-ipadic-neologd というものらしい。次回はこれをインストールする。