ページへ戻る

− Links

 印刷 

自然言語解析​/頻度解析用の異表記辞書を作る のバックアップソース(No.1) :: NJF Wiki

xpwiki:自然言語解析/頻度解析用の異表記辞書を作る のバックアップソース(No.1)

  Next »[5]
*異表記辞書の必要性 [#z86db63c]

Mecabの形態素解析の結果を使い、外食の口コミに対して頻度解析を行い人気メニューを割だそうとしたときに、異表記(または表記ゆれ)が問題となりました。

例えば居酒屋で解析すると、同じメニューでも口コミによって異なる書き方をしているため、集計結果がかなり大きく変わってしまいます。特に気になったのが「焼鳥」で、これには以下の異表記があります。

-焼鳥
-ヤキトリ
-やきとり
-焼き鳥
-焼きとり

どの書き方もそれなりに使われているため、これを一つにまとめるかそうでないかで集計結果がかなり変わります。

他には魚や動物の名前を漢字、ひらがな、カタカナで書いたり(例:サンマ、さんま、秋刀魚)する例も、どれもよく使うので結果に影響します。



&font(Red){制作中};


  Next »[5]