ページへ戻る
− Links
印刷
自然言語解析/MeCabをpythonで使う
の編集 ::
NJF Wiki
xpwiki
:
自然言語解析
/
MeCabをpythonで使う
の編集
# v0090cc9 の編集
ページ内容:
*pythonのMeCabバインディングのインストール [#v0090cc9] MeCabには各種スクリプト言語 (perl, ruby, python, Java) から使うためのバインディングがある。 ここでpythonを選んだのは、世界的には最も普及したスクリプト言語であり、各種のライブラリや(日本語にこだわらなければ)たくさんの資料があるため。 pythonのMeCabバインディングのインストールは sudo pip install mecab-python とすればよい。 pythonからの使い方は import MeCab meCabTagger= MeCab.Tagger("mecabrc") res = meCabTagger.parseToNode("庭には二羽鶏がいる") while res: print res.surface print res.feature res = res.next 結果は BOS/EOS,*,*,*,*,*,*,*,* 庭 名詞,一般,*,*,*,*,庭,ニワ,ニワ に 助詞,格助詞,一般,*,*,*,に,ニ,ニ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 二 名詞,数,*,*,*,*,二,ニ,ニ 羽 名詞,接尾,助数詞,*,*,*,羽,ワ,ワ 鶏 名詞,一般,*,*,*,*,鶏,ニワトリ,ニワトリ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ いる 動詞,自立,*,*,一段,基本形,いる,イル,イル BOS/EOS,*,*,*,*,*,*,*,* つまり、「surface」にもとの単語が入り、「feature」に品詞や活用などがコンマ区切りのCSVのテキストで入っている。 featureは、「品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音」と入っている。 品詞細分類については[[形態素解析ツールの品詞体系:http://www.unixuser.org/~euske/doc/postag/]]を参照のこと。 ここでMeCabへの入力はstr型で無くてはならない。 >>> res = meCabTagger.parseToNode(u"庭には二羽鶏がいる") Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Library/Python/2.7/site-packages/MeCab.py", line 282, in parseToNode def parseToNode(self, *args): return _MeCab.Tagger_parseToNode(self, *args) TypeError: in method 'Tagger_parseToNode', argument 2 of type 'char const *' Mecabの初期化ではオプションを使える。つまり例えば他の辞書を使いたければ、 mecabTagger = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/") とする。
編集の要約:
Q & A 認証:
ページ更新時は次の質問にお答えください。(プレビュー時は必要ありません)
Q:
「京都」の読みがな?(ひらがなで)
A:
お名前:
タイムスタンプを変更しない
テキスト整形のルールを表示する
[1]
Links list
(This host) = https://njf.jp
(This host)
/cms/modules/xpwiki/?cmd=edit&help=true&page=%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E8%A7%A3%E6%9E%90%2FMeCab%E3%82%92python%E3%81%A7%E4%BD%BF%E3%81%86