Tableauでテキストマイニングデータを可視化する(次期米国大統領を検索キーにして何が見えるか)

Version 7

    今回はTableau を使ってテキストマイニング・データを可視化してみたいと思います。

    2016/11/06 ~2016/11/27 までの間、いま話題のドナルド・トランプ次期米国首相について新聞のヘッドラインを検索した結果のワード出現回数をTableauで可視化します。

     

    テキストマイニング ツールとしてはフリーのWebサイトUser Localを利用させていただきました。

    リンク ☞ テキストマイニング 無料ツール by ユーザーローカル

    こちらでテキストのワードカウント、品詞の分類が可能です。

     

    Tableau でワードクラウドを作成し、ページ機能を使って日毎に変遷していく様子を表しています。

    ※下のイメージを右クリックし、新しいTABでブラウザーを開いてください。(Youtube画像が開きます)

    また、下のようにワードの出現頻度の日別推移を表現することもできます。

     

    大統領選が行われた11/8の翌日11/9には「勝利」のワードがスパイクを起こしています。

    対立候補のヒラリークリントンは11/8 にスパイクを起こしていますが、次期大統領が決定してからの出現回数は減っています。

     

    11/18 日を境に「期待」というワードも増えていることが興味深いです。

     

     

    ドナルド・トランプ次期大統領に関連する頻出形容詞です。皆さまどういう印象を受けるでしょうか・・・・

     

    ここで今回の可視化のステップを簡単にご紹介します。

     

    1.日別ワード出現回数のデータをユニオンして一つのデータソースとします。

     

    2.名寄せのための辞書を作成し、ユニオンしたデータと左結合します。

    ワードには揺れが発生するので、ワードのバリエーションを統一の単語に統合しています。

    (たとえば、安倍晋三、安倍首相、安倍さん はひとつの概念と考えらえます。)

     

    3.ワードクラウドを作ります。 ワードクラウドの作り方は簡単で、テキストに統一単語を、出現回数をサイズにドラッグしてマークの表示形式をテキストにするだけです。

    4.出現回数の最大値({FIXED [単語]: MAX([出現回数])})でフィルタを掛けることで表示するワードを絞っています。

     

    Tableauであれば、出現回数のフィルタ値や、品詞、日付など自由な切り口で分析をすることが簡単にできます。

    また、意味を持たないあまりにも一般的すぎる助詞や助動詞ワードをフィルタし、意味のあるワードに絞って表示することも簡単です。

     

    今回頻出回数のデータを準備するところは簡単のためWebサイトサービスを利用しましたが、RのMecabの形態素解析パッケージをなどでもできるのではないかと思います。

    テキストマイニングツールとTableauを連携することでいろいろな可能性が広がりそうです。

     

    皆さんも、テキストデータから何がみえるのか、Tableauを使ってデータの探索をしてみてください!

     

    Publicも参照ください:

    Tableau Public テキストマイニングDnardTrump

     

    参考になれば幸いです。

     

    よろしくお願いします。