WordCloudの使い方

こんにちは。hacknoteのr.katoです。

一時期、Twitterで流行っていた文字の可視化に使われていたものです。

一応こちらに簡単な使い方が書いてありましたが、いくつか補足した方がいいこともあったので紹介していきます。

  1. 基本的に英文を使ってください。

どうしても和文を使いたい場合は、JanomeやMeCabなどで単語に分けてからにしてください。

例) “これはhacknoteの記事です。” => [“これ”,”は”,”hacknote”,”の”,”記事”,”です”]

  1. 日本語を使う場合はフォントを指定しましょう。

フォント指定をしないと豆腐と呼ばれる状態になります。

コード例(macの場合)

次のように、 text に単語ごとに分けたリストを入れてあげると実行した場所にwc1.pngという名前で画像が作られます。
widthとheightが画像サイズを決めており、
font_pathがフォントを決めています。windowsで実行する場合は別のファイルパスを指定することになると思います。
stopwordsでは画像化して欲しくない単語を指定できます。
max_wordは画像生成に使われる単語の最大数を指定できます。正直なところデフォルトでは200なので500とかにしないと少なく感じると思います。

from wordcloud import WordCloud
text = ["WordCloud","化","したい","文章"]
wc = WordCloud(width=1920, height=1080,
               font_path="/System/Library/Fonts/ヒラギノ角ゴシック W6.ttc",
               stopwords={"もの","これ","ため","それ","ところ","よう","こと","そう","ます","ので","から","など","です","する","いる","ない","あり","なく","また"},
               max_words=500,
               background_color="white")
wc.generate(text)
wc.to_file('wc1.png')

実際に文章を指定して実行すると、こんな風になります。