景気ウォッチャーで自然言語処理入門
面白そうだったので参加。オンラインの無料勉強会。
140人もいたのか。
基本Zoom(じゃなくてBrave Talks)というオンライン会議ツールで参加。
ビデオも音声もOff。聞いてるだけでOK。
景気ウォッチャーとは
ほうほう。
これの、例えば「東北」を開いてみると
こう。
これのCSV版である watcher4.csv(景気判断理由集・現状)に目を付ける。
ちなみに発表者のPython分析はコレ。凄すぎ。
すぐにはとても真似できんので、こっちはbashとmecabで遊んでみる。
mecabは前にインストールした。
wathcer4.csvを各月分ダウンロードして加工して比較してみる。
$ wget http://www5.cao.go.jp/keizai3/2022/0708watcher/watcher4.csv -P data/220708/
$ cd /data/220708/
$ cat watcher4.csv | nkf -wLux | tee -a watcher4_utf8.csv
$ tt=watcher4_utf8.csv && cat "$tt" | mecab -d "/usr/lib64/mecab/dic/mecab-ipadic-neologd/" | grep 名詞 | awk -F名詞 '{print $1}' | sort | uniq -c | sort -k 1 | tee -a mymecab02_$(basename `pwd`)_"${tt%%.csv}".txt
こうなる。
左:2022/8月の単語の出現数
右:2022/7月の単語の出現数
比べると例えば
・「新型コロナウイルス」という単語が登場するのは左(8月)のほうが多い(=上位)だと分かる。
・「客」とか「お客様」の登場順は8月のほうが減ってしまった。
・「求人」の出現順位も8月は下がってしまった。
と分かる。
これをコロナの感染者数グラフと比べてみると…確かに8月に激増している。
こりゃ宿泊客もキャンセルしただろうなーと思って
・「キャンセル」という単語を調べるとやはり8月に一気に出現数激増しているのも見てとれる。
ほかにも例えば
・「クーポン」という単語が8月には無くなった(7月はあった)
とか分かる。
面白いぞこれ。
例えば
grep 一般小売 とかやったら業態別に分析できる。
$ tt=watcher4_utf8.csv && cat "$tt" | egrep '.*一般小売.*' | mecab -d "/usr/lib64/mecab/dic/mecab-ipadic-neologd/" | grep 名詞 | awk -F名詞 '{print $1}' | sort | uniq -c | sort -k 1 | tee -a mymecab02_$(basename `pwd`)_kouri_"${tt%%.csv}".txt
これ色々先読みできるんじゃ?
watcher4_utf8.csvの頭の12行は不要なので読み飛ばす+必要列だけに絞るとかして精度上げる。
$ tt=watcher4_utf8.csv && tail -n +12 "$tt" | awk -F, '{print $6}' | sed -e s/"^\n"/""/g | sed -e s/"^−.*$"/""/g | mecab -d "/usr/lib64/mecab/dic/mecab-ipadic-neologd/" | grep 名詞 | awk -F名詞 '{print $1}' | sort | uniq -c | sort -k 1 | tee -a mymecab03_$(basename `pwd`)_"${tt%%.csv}".txt
楽しい。いろいろ試す。