前回記事で fastText をインストールしたので、ひき続きMeCabをインストールする。
参考記事はこれ。
前提
・python3で試す。python2.7は無視。
・2018/9/2時点
$ sudo apt-get update
$ sudo apt-get install mecab libmecab-dev mecab-ipadic-utf8 python-mecab
mecabの動作を試す。
$ mecab
隣の客はよく柿食う客だ
こういう、コトワザのような短い文章は問題なく分割できている。
次に、ニュース記事のような(流行りの)文章を正確に分割できるか試す。ふだんの甲子園は興味ないが、今回は金足農業高校に感動させられたので、その記事を使ってみる。
$ mecab
佐竹敬久秋田県知事は30日、第100回全国高校野球選手権記念大会(甲子園)で、県勢として103年ぶりに準優勝した金足農野球部に県民栄誉章を授与すると明らかにした。甲子園出場報告のため県庁を訪れた選手らに伝えた。
分割が細かすぎる。「第100回全国高校野球選手権大会(甲子園)」は1単語として認識してほしい。「金足農」も1単語として認識できないと、流行りの単語に対応しているとは言えない。
これを可能にするのが 流行りの単語に対応した辞書 mecab-ipadic-neologd というものらしい。次回はこれをインストールする。