前回、ツイッターで面白いタグを見つけた。
映画ファンが面白い映画を「#名刺代わりの映画10選」として紹介してくれている。つぶやきには文字数制限あるからかネタバレが無いし、けっこうアタリの映画が多い。
せっかくこんな面白いタグなのだからオススメされた映画ツイートを一括で取得して一覧ファイルに出力したい。ついでにオススメ数も取得したい。Python3 と bashでササッと組む。
Python で TwitterAPI を使う方法はこのへん参照。
できた。Python3 の PATHが通っている前提。
$ vim ./getTW02_キーワードサーチ.py
実行してみる。
$ ./getTW02_キーワードサーチ.py
検索ワードを聞かれるので
シャープを含んだ検索タグを記載する。
オススメの結果がズラリと並ぶ。
ツイッターにつぶやくほどコアな映画ファンが選んだオススメ映画だけの一覧になる。めっちゃ便利だこれ。
出力されたオススメ映画を、bashのtee コマンドにパイプしてファイルに落とす。
$ ./getTW02_キーワードサーチ.py | tee -a eiga10.txt
出力されたファイルをvimで開いてみる。
$ vim eiga10.txt
素晴らしい。実行によって1回で取得できるツイートは100件(API制限)なので、1件につき10個オススメが呟かれたとして全体で1000個を超えるオススメがされている。
あとはこれを sort (並べ替え)し uniq -c(名前のカブリを排除 かつ カウントされた数を表示)するパイプに通して整理してみる。
$ cat eiga10.txt | sort | uniq -c
結果が出た。タイトルの前にある数字がオススメ数(多いほどオススメ)。「テラビシアに架ける橋」「ディーバ」など、聞いたこともないタイトルの映画が並ぶ。
最高すぎる。
<今後直したいところ>
・twitterAPIでは一度に取得するツイート数の上限が限られているので(例えば50件とか)、ループで回して一度に大量(まとめて1,000件のツイート=10,000個のオススメを取得)できるようにしたい。
・そのために「前回取得したツイートの内容を覚えておき、その続きから」取得できるようにしたい。
このへんが参考になりそう。
次回に続く。