min117の日記

初期desireもち。趣味Mac,メインFedora,仕事xp。

景気ウォッチャーで自然言語処理入門 の真似事(bash+mecabで単語分析)

景気ウォッチャーで自然言語処理入門

面白そうだったので参加。オンラインの無料勉強会。

140人もいたのか。

基本Zoom(じゃなくてBrave Talks)というオンライン会議ツールで参加。

ビデオも音声もOff。聞いてるだけでOK。

 

景気ウォッチャーとは

ほうほう。

www5.cao.go.jp

 

これの、例えば「東北」を開いてみると

こう。

 

これのCSVである watcher4.csv(景気判断理由集・現状)に目を付ける。

 

ちなみに発表者のPython分析はコレ。凄すぎ。

 

すぐにはとても真似できんので、こっちはbashmecab遊んでみる。

 

mecabは前にインストールした。

min117.hatenablog.com

 

wathcer4.csv各月分ダウンロードして加工して比較してみる

 

$ wget http://www5.cao.go.jp/keizai3/2022/0708watcher/watcher4.csv -P data/220708/

$ cd /data/220708/

$ cat watcher4.csv | nkf -wLux | tee -a watcher4_utf8.csv

$ tt=watcher4_utf8.csv && cat "$tt" | mecab -d "/usr/lib64/mecab/dic/mecab-ipadic-neologd/" | grep  名詞 | awk -F名詞 '{print $1}' | sort | uniq -c | sort -k 1 | tee -a mymecab02_$(basename `pwd`)_"${tt%%.csv}".txt

 

こうなる

 左:2022/8月の単語の出現数

 右:2022/7月の単語の出現数

比べると例えば

・「新型コロナウイルス」という単語が登場するのは左(8月)のほうが多い(=上位)だと分かる。

・「客」とか「お客様」の登場順は8月のほうが減ってしまった。

・「求人」の出現順位も8月は下がってしまった。

と分かる。

 

これをコロナの感染者数グラフと比べてみると…確かに8月に激増している。

こりゃ宿泊客もキャンセルしただろうなーと思って

・「キャンセル」という単語を調べるとやはり8月に一気に出現数激増しているのも見てとれる。

ほかにも例えば

・「クーポン」という単語が8月には無くなった(7月はあった)

とか分かる。

面白いぞこれ。

 

例えば

grep 一般小売 とかやったら業態別に分析できる。

 

$ tt=watcher4_utf8.csv && cat "$tt" | egrep '.*一般小売.*' | mecab -d "/usr/lib64/mecab/dic/mecab-ipadic-neologd/" | grep  名詞 | awk -F名詞 '{print $1}' | sort | uniq -c | sort -k 1 | tee -a mymecab02_$(basename `pwd`)_kouri_"${tt%%.csv}".txt

これ色々先読みできるんじゃ?

 

watcher4_utf8.csv頭の12行は不要なので読み飛ばす必要列だけに絞るとかして精度上げる。

$ tt=watcher4_utf8.csv && tail -n +12 "$tt" | awk -F, '{print $6}' | sed -e s/"^\n"/""/g | sed -e s/"^−.*$"/""/g | mecab -d "/usr/lib64/mecab/dic/mecab-ipadic-neologd/" | grep  名詞 | awk -F名詞 '{print $1}' | sort | uniq -c | sort -k 1 | tee -a mymecab03_$(basename `pwd`)_"${tt%%.csv}".txt

楽しい。いろいろ試す。

 

その買うを、もっとハッピーに。|ハピタス