2014年2月10日月曜日

東京都知事選に見るツイートとの相関関係

今回の東京都知事選挙に向け、「2014年東京都知事選挙東京都知事選挙に関するツイートから本当の人気をランキング!」というサイトを立ち上げました。
http://tokyo.negaposia.com/
http://tokyo.negaposia.com/
このサイトでは

  • 各候補者名でTwitterを検索
  • 形態素解析を使ってつぶやきの内容を単語に分解
  • 単語ごとにネガポジ判定
  • ネガポジ判定を元に1日1回集計

を行って各候補者の人気をランキングしています。


こちらのランキングのソースは
https://github.com/YoshiteruIwasaki/NegativePositieAnalyzerForJa
で公開しています。

また、ネガポジ判定のロジックはrikyuを使用しています。
https://github.com/YoshiteruIwasaki/rikyu

ネガポジ判定ロジックとしてはyonagaもありますが、こちらはネガティブの割合のほうが重くなる傾向があるため今回は使用していません。


さて、今回当選をしたのは舛添要一氏でした。
舛添氏のランキングを見てみると最終日のランキングは最下位になっています。


また公示後のランキングについても見てみると、2月4−6日にかけては上位に食い込んできましたが、それ以外の期間はランキング下位が続いています。

舛添氏に関するツイートはネガティブな内容ポジティブな内容もどちらも多い、支持する人も多いけれど、反対する人も多い、といった傾向にあるようです。


途中まで、隠れた支持率の高い人を見出すため、その人に対するツイートに対するポジティブの割合をランキング上位に来るようにしていましたが、選挙は民主主義、数の理論のため、途中から純粋にポジティブなツイートからネガティブなツイートを引いた数、でランキングを出すようにしました。

今回の結果としては実際の結果とは外れた形になるので、精度を上げていきたいところです。やはりネットでつぶやく層と投票に行く層とは違うのでしょうか?
このロジックの今後の改善点として以下が挙げられます。


期間途中、ツイート数増加に耐えられず解析が間に合わない期間がありました。1候補者につき、1日3000から4000件ほどはつぶやかれているようです。

ツイート検索ロジックのリファクタリングが必要そうです(例えば今回「家入一真」氏は「家入 一真」で検索をかけましたが、「家入 かずま」と言った形でつぶやかれるケースも想定されます。)


形態素解析以外の重み付け手法の検討。今回は形態素解析でネガティブ・ポジティブを解析しましたが、あくまで単語ベースでの重み付けとなり、「この候補者マジでクソ。だが応援する」などの文章から判断することはできていないので、文章でその単語が出てくる場所(後半の方に重みをもたせる)、逆説のあとは重み付けを強くするなどの処理が必要かもしれません。(この辺りになってくると研究的側面が出てくるので、どなたか良いjarファイルをご存知であれば教えて下さい。)


最後に皆さん、投票には行きましょう!
以上。







0 件のコメント:

コメントを投稿