Ad
1: 2016-05-27 (金) 11:24:05 njf ソース バックアップ No.1 を復元して編集
Line 1: Line 1:
 +*MeCabのインストール [#ned074dc]
 +MeCabは日本語の文章を単語に分解してそれぞれの品詞や活用形を表示してくれる形態素解析のソフト。
 +[[MeCabについて詳しくはこちらを参考のこと。:http://taku910.github.io/mecab/]]
 +
 +自然言語解析をするならとりあえず入れておいた方が良い。
 +
 +インストルールは上記サイトにもあるが、最新ソースをダウンロードしてきて、本体は
 +
 + tar zxfv mecab-X.X.tar.gz
 + cd mecab-X.X
 + ./configure --enable-utf8-only
 + make
 + make check
 + sudo make install
 +
 +辞書は
 +
 + tar zxfv mecab-ipadic-2.7.0-xxxx
 + cd mecab-ipadic-2.7.0-xxxx
 + ./configure  --with-charset=utf8
 + make
 + make check
 + sudo make install
 +
 +とする。ここで文字コードをutf8に固定している。しなくても良いのだが、utf8が最近はいろいろなテキストのデファクトスタンダードなコードになりつつあるので、固定しておいて入力データを変換した方がMeCabで見分けて解析するより何かと楽なのでそうしている。
 +
 +インストールがうまくいっていれば、
 +
 + mecab -v
 +
 +でバージョンが表示される。
 +
 +実際にテストで解析したければ、標準入力などでテキストを与える。
 +
 + $ echo "庭には二羽鶏がいる" | mecab
 + 庭 名詞,一般,*,*,*,*,庭,ニワ,ニワ
 + に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
 + は 助詞,係助詞,*,*,*,*,は,ハ,ワ
 + 二 名詞,数,*,*,*,*,二,ニ,ニ
 + 羽 名詞,接尾,助数詞,*,*,*,羽,ワ,ワ
 + 鶏 名詞,一般,*,*,*,*,鶏,ニワトリ,ニワトリ
 + が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
 + いる 動詞,自立,*,*,一段,基本形,いる,イル,イル
 + EOS
 +
 +*pythonのMeCabバインディングのインストール [#v0090cc9]
 +MeCabには各種スクリプト言語 (perl, ruby, python, Java) から使うためのバインディングがある。
 +ここでpythonを選んだのは、世界的には最も普及したスクリプト言語であり、各種のライブラリや(日本語にこだわらなければ)たくさんの資料があるため。
 +
 +pythonのMeCabバインディングのインストールは
 +
 + sudo pip install mecab-python
 +
 +とすればよい。
 +
 +pythonからの使い方は
 + import MeCab
 + meCabTagger= MeCab.Tagger("mecabrc")
 + res = meCabTagger.parseToNode("庭には二羽鶏がいる")
 + while res:
 +     print res.surface
 +     print res.feature
 +     res = res.next
 +
 +結果は
 +
 + BOS/EOS,*,*,*,*,*,*,*,*
 + 庭
 + 名詞,一般,*,*,*,*,庭,ニワ,ニワ
 + に
 + 助詞,格助詞,一般,*,*,*,に,ニ,ニ
 + は
 + 助詞,係助詞,*,*,*,*,は,ハ,ワ
 + 二
 + 名詞,数,*,*,*,*,二,ニ,ニ
 + 羽
 + 名詞,接尾,助数詞,*,*,*,羽,ワ,ワ
 + 鶏
 + 名詞,一般,*,*,*,*,鶏,ニワトリ,ニワトリ
 + が
 + 助詞,格助詞,一般,*,*,*,が,ガ,ガ
 + いる
 + 動詞,自立,*,*,一段,基本形,いる,イル,イル
 +
 + BOS/EOS,*,*,*,*,*,*,*,*
 +
 +つまり、「surface」にもとの単語が入り、「feature」に品詞や活用などがコンマ区切りのCSVのテキストで入っている。
 +
 +featureにどういう物が入ってくるかは、[[形態素解析ツールの品詞体系:http://www.unixuser.org/~euske/doc/postag/]]を参照のこと。


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード印刷に適した表示   ページ新規作成 全ページ一覧 単語検索 最新ページの一覧   ヘルプ   最新ページのRSS 1.0 最新ページのRSS 2.0 最新ページのRSS Atom Powered by xpWiki
Counter: 8316, today: 2, yesterday: 0
MenuBar
広告

ログイン

ユーザー名:


パスワード:





パスワード紛失

Portuguese | English | German | Greek | Japanese | Korean | Russian | T-Chinese top
NJF