NJF Wiki - xpwiki バックアップ : [自然言語解析/CaboChaをpythonで使うのバックアップ差分(No.3)]

« Prev Next »

--- 2: 2016-11-11 (金) 18:08:41 njf
+++ 3: 2016-11-11 (金) 18:34:06 njf
@@ Line 42: / Line 42: @@
 -最初の0は文節の通番。文頭なので0
--3Dは数字の部分がその文節がかかっている通番。ここでは通番3の「赤いペンです」にかかっている。かかり先がなければ-1。よって文末は常に-1
+-3Dは数字の部分がその文節がかかっている通番。ここでは通番3の「赤いペンです」にかかっている。かかり先がなければ-1。よって文末は常に-1。Dの意味は資料がなく不明
 -0/1の主辞（文節の中心となる単語）と機能語（助詞など）の位置を示している。この例では「私」が主辞で「の」が機能語
 -次の小数値はかかりやすさの度合い
@@ Line 138: / Line 138: @@
 |chunk_size|なし|文節の個数を取得する|
-まず形態素解析のデータに関しては
+一方、形態素解析のデータに関しては
 |メソッド名|引数|概要|
@@ Line 157: / Line 157: @@
 |link|文節がかかっている通番|
 |token_size|含まれる形態素の数|
-|token_pos|含まれる形態素の銭湯の場所|
+|token_pos|含まれる形態素の先頭の場所|
 |head_pos|主辞の場所|
 |func_pos|機能語の場所|
@@ Line 163: / Line 163: @@
 ほとんどのプロパティは前節のコマンドラインで実行した例で解説しているので、分からないところは戻って確認してください。token_posは例えば
-first_token = parsed.token(chunk.token_pos)
+ first_token = parsed.token(chunk.token_pos)
 とするとその文節の最初の形態素が取得できます。
-一方、tokenつまり形態素解析の結果についてはMecabのpythonバインディングと全く同じ格納のされかたをされています。例えば
+一方、tokenつまり形態素解析の結果についてはMecabのpythonバインディングと全く同じ格納のされかたをされています。詳細は[[自然言語解析/MeCabをpythonで使う]]を参照してください。
+例えば
  print token.surface
 とすれば元の単語が表示されます。
-詳細は[[自然言語解析/MeCabをpythonで使う]]を参照してください。
+よって
+ for i in range(parsed.chunk_size()):
+     chunk = tree.chunk(i)
+     for j in range(chunk.token_size):
+             token = parsed.token(chunk.token_pos + j)
+             print token.surface,
+とすると、元の文章が空白区切りで出力されます
 &font(Red){編集中};

« Prev Next »

自然言語解析/CaboChaをpythonで使うのバックアップ一覧
自然言語解析/CaboChaをpythonで使うのバックアップ差分(No. All)
- 1: 2016-11-11 (金) 15:08:57 njf
- 2: 2016-11-11 (金) 18:08:41 njf
- 3: 2016-11-11 (金) 18:34:06 njf
- 4: 2016-11-27 (日) 07:05:12 njf
- 現: 2016-11-27 (日) 21:05:42 njf

ぺージ情報
ぺージ名 :	自然言語解析/CaboChaをpythonで使う
ページ別名 :	未設定
ページ作成 :	njf
閲覧可
グループ :	すべての訪問者
ユーザー :	すべての訪問者
編集可
グループ :	すべての訪問者
ユーザー :	すべての訪問者

Counter: 6382, today: 1, yesterday: 0

自然言語解析​/CaboChaをpythonで使う のバックアップ差分(No.3)

20 最新の0件

自然言語解析/CaboChaをpythonで使うのバックアップ差分(No.3)