2: 2016-05-27 (金) 11:57:19 njf[6] [7] [8] | 3: 2016-07-12 (火) 22:04:10 njf[6] [9] [10] | ||
---|---|---|---|
Line 44: | Line 44: | ||
いる 動詞,自立,*,*,一段,基本形,いる,イル,イル | いる 動詞,自立,*,*,一段,基本形,いる,イル,イル | ||
EOS | EOS | ||
+ | |||
+ | *辞書の更新 [#j6833905] | ||
+ | |||
+ | 残念ながらデフォルトのままでは辞書の単語数が少なすぎて、あまり正確に解析できない。 | ||
+ | 自分でも単語を追加できるが、精度をあげるには相当数を追加する必要があり、ちょっと難しい。 | ||
+ | 幸いこちら([[http://diary.overlasting.net/2015-03-13-1.html]])で新語などを追加している方がいるので、ありがたく使わせていただく。 | ||
+ | 辞書のインストールと使い方はリンク先参照のこと。 | ||
+ | |||
+ | この辞書を使うと例えば | ||
+ | |||
+ | echo "レアチーズケーキ" | mecab | ||
+ | |||
+ | レアチーズケーキ 名詞,固有名詞,組織,*,*,*,* | ||
+ | EOS | ||
+ | |||
+ | と、なぜかレアチーズケーキが組織名になっていたのが、 | ||
+ | |||
+ | echo "レアチーズケーキ" | mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/ | ||
+ | |||
+ | レアチーズケーキ 名詞,固有名詞,一般,*,*,*,レアチーズケーキ,レアチーズケーキ,レアチーズケーキ | ||
+ | EOS | ||
+ | |||
+ | ちゃんと一般名詞となる。 | ||
+ | |||
+ | 他にもいろいろと正確になる | ||
+ | |||
+ | 一方で逆にまれに間違っていることもあるのでおかしいときには自分で直す必要がある | ||
*pythonのMeCabバインディングのインストール [#v0090cc9] | *pythonのMeCabバインディングのインストール [#v0090cc9] | ||
Line 101: | Line 128: | ||
def parseToNode(self, *args): return _MeCab.Tagger_parseToNode(self, *args) | def parseToNode(self, *args): return _MeCab.Tagger_parseToNode(self, *args) | ||
TypeError: in method 'Tagger_parseToNode', argument 2 of type 'char const *' | TypeError: in method 'Tagger_parseToNode', argument 2 of type 'char const *' | ||
+ | |||
+ | |||
+ | Mecabの初期化ではオプションを使える。つまり例えば他の辞書を使いたければ、 | ||
+ | |||
+ | mecabTagger = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/") | ||
+ | |||
+ | とする。 |
(This host) = https://njf.jp