ページへ戻る
+ Links
印刷
自然言語解析/頻度解析用の異表記辞書を作る
の編集 ::
NJF Wiki
xpwiki
:
自然言語解析
/
頻度解析用の異表記辞書を作る
の編集
# z86db63c の編集
ページ内容:
*異表記辞書の必要性 [#z86db63c] Mecabの形態素解析の結果を使い、外食の口コミに対して頻度解析を行い人気メニューを割だそうとしたときに、異表記(または表記ゆれ)が問題となりました。 例えば居酒屋で解析すると、同じメニューでも口コミによって異なる書き方をしているため、集計結果がかなり大きく変わってしまいます。特に気になったのが「焼鳥」で、これには以下の異表記があります。 -焼鳥 -ヤキトリ -やきとり -焼き鳥 -焼きとり どの書き方もそれなりに使われているため、これを一つにまとめるかそうでないかで集計結果がかなり変わります。 他には魚や動物の名前を漢字、ひらがな、カタカナで書いたり(例:サンマ、さんま、秋刀魚)する例も、どれもよく使うので結果に影響します。 異表記については日々新語が生まれていたり、複合的な言葉をどうするか、専門用語はどうするかなど、こだわりだすときりがなく、最終的には解析する文書や使い方にあわせて、現状ではある程度人の手をつかうことになりそうです。 とはいえせめて基本的な単語ぐらいはあらかじめまとめておきたい物です。 そこでネットで公開されている表記ゆれ辞書「[[たんし:http://tansi.osdn.jp/]]」を使って基本的な異表記辞書を作ることにします。
編集の要約:
Q & A 認証:
ページ更新時は次の質問にお答えください。(プレビュー時は必要ありません)
Q:
「東京」の読みがな?(ひらがなで)
A:
お名前:
タイムスタンプを変更しない
テキスト整形のルールを表示する