ここではJanomeを用いた形態素解析について解説しています。
Janomeとは
JanomeはPython自身で記述されている形態素解析エンジンです。
特徴としてはMecabと比べると実行速度が10倍ほど遅いです。しかし、MecabのようにPython用ライブラリなどをインストールすることなく、pipコマンド一つで環境構築でるので、手軽さも特徴の一つです。
Janomeのインストール
$ pip3 install janome
JanomeはMecabと比べると上記をインストールするだけで環境が整います。
Janomeを用いた使用例
from janome.tokenizer import Tokenizer
#1---オブジェクト作成
t = Tokenizer()
#2---メソッドに文字列を渡す
for token in t.tokenize('吾輩は猫である。'):
print(token)
プログラムは上記になります。
それでは解説していきます。
#1---オブジェクト作成
t = Tokenizer()
1の部分では、Tokenizer オブジェクトを作っています。
#2---メソッドに文字列を渡す
for token in t.tokenize('吾輩は猫である。'):
print(token)
2の部分では、tokenize() メソッドに解析したい文字列を渡して出力しています。
結果
吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ
で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。 記号,句点,*,*,*,*,。,。,。
上記が結果になります。
Mecabと比べると若干遅く感じましたが、結果は一緒でした。Mecabの結果はこちらです。
その他、Janomeを用いた使用例
項目 | 内容 |
Janomeを用いた出現頻度の解析 | 太宰治の「I can speak」の単語頻出を解析してみました。ここでは、Janomeを用いて出現頻度の解析方法について解説しています。 |