Ad
2: 2016-11-11 (金) 18:08:41 njf ソース バックアップ No.2 を復元して編集 3: 2016-11-11 (金) 18:34:06 njf ソース バックアップ No.3 を復元して編集
Line 42: Line 42:
-最初の0は文節の通番。文頭なので0 -最初の0は文節の通番。文頭なので0
--3Dは数字の部分がその文節がかかっている通番。ここでは通番3の「赤いペンです」にかかっている。かかり先がなければ-1。よって文末は常に-1+-3Dは数字の部分がその文節がかかっている通番。ここでは通番3の「赤いペンです」にかかっている。かかり先がなければ-1。よって文末は常に-1。Dの意味は資料がなく不明
-0/1の主辞(文節の中心となる単語)と機能語(助詞など)の位置を示している。この例では「私」が主辞で「の」が機能語 -0/1の主辞(文節の中心となる単語)と機能語(助詞など)の位置を示している。この例では「私」が主辞で「の」が機能語
-次の小数値はかかりやすさの度合い -次の小数値はかかりやすさの度合い
Line 138: Line 138:
|chunk_size|なし|文節の個数を取得する| |chunk_size|なし|文節の個数を取得する|
-まず形態素解析のデータに関しては+一方、形態素解析のデータに関しては
|メソッド名|引数|概要| |メソッド名|引数|概要|
Line 157: Line 157:
|link|文節がかかっている通番| |link|文節がかかっている通番|
|token_size|含まれる形態素の数| |token_size|含まれる形態素の数|
-|token_pos|含まれる形態素の銭湯の場所|+|token_pos|含まれる形態素の先頭の場所|
|head_pos|主辞の場所| |head_pos|主辞の場所|
|func_pos|機能語の場所| |func_pos|機能語の場所|
Line 163: Line 163:
ほとんどのプロパティは前節のコマンドラインで実行した例で解説しているので、分からないところは戻って確認してください。token_posは例えば ほとんどのプロパティは前節のコマンドラインで実行した例で解説しているので、分からないところは戻って確認してください。token_posは例えば
-first_token = parsed.token(chunk.token_pos)+ first_token = parsed.token(chunk.token_pos)
とするとその文節の最初の形態素が取得できます。 とするとその文節の最初の形態素が取得できます。
-一方、tokenつまり形態素解析の結果についてはMecabのpythonバインディングと全く同じ格納のされかたをされています。例えば+一方、tokenつまり形態素解析の結果についてはMecabのpythonバインディングと全く同じ格納のされかたをされています。詳細は[[自然言語解析/MeCabをpythonで使う]]を参照してください。 
 + 
 +例えば
 print token.surface  print token.surface
とすれば元の単語が表示されます。 とすれば元の単語が表示されます。
-詳細は[[自然言語解析/MeCabをpythonで使う]]を参照してください。+よって 
 + 
 + for i in range(parsed.chunk_size()): 
 +     chunk = tree.chunk(i) 
 +     for j in range(chunk.token_size): 
 +             token = parsed.token(chunk.token_pos + j) 
 +             print token.surface, 
 + 
 +とすると、元の文章が空白区切りで出力されます 
 + 
&font(Red){編集中}; &font(Red){編集中};


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード印刷に適した表示   ページ新規作成 全ページ一覧 単語検索 最新ページの一覧   ヘルプ   最新ページのRSS 1.0 最新ページのRSS 2.0 最新ページのRSS Atom Powered by xpWiki
Counter: 6382, today: 1, yesterday: 0
MenuBar
広告

ログイン

ユーザー名:


パスワード:





パスワード紛失

Portuguese | English | German | Greek | Japanese | Korean | Russian | T-Chinese top
NJF