Ad
1: 2016-11-27 (日) 08:31:50 njf ソース バックアップ No.1 を復元して編集
Line 1: Line 1:
 +*異表記辞書の必要性 [#z86db63c]
 +Mecabの形態素解析の結果を使い、外食の口コミに対して頻度解析を行い人気メニューを割だそうとしたときに、異表記(または表記ゆれ)が問題となりました。
 +
 +例えば居酒屋で解析すると、同じメニューでも口コミによって異なる書き方をしているため、集計結果がかなり大きく変わってしまいます。特に気になったのが「焼鳥」で、これには以下の異表記があります。
 +
 +-焼鳥
 +-ヤキトリ
 +-やきとり
 +-焼き鳥
 +-焼きとり
 +
 +どの書き方もそれなりに使われているため、これを一つにまとめるかそうでないかで集計結果がかなり変わります。
 +
 +他には魚や動物の名前を漢字、ひらがな、カタカナで書いたり(例:サンマ、さんま、秋刀魚)する例も、どれもよく使うので結果に影響します。
 +
 +
 +
 +&font(Red){制作中};


トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード印刷に適した表示   ページ新規作成 全ページ一覧 単語検索 最新ページの一覧   ヘルプ   最新ページのRSS 1.0 最新ページのRSS 2.0 最新ページのRSS Atom Powered by xpWiki
Counter: 2739, today: 1, yesterday: 1
MenuBar
広告

ログイン

ユーザー名:


パスワード:





パスワード紛失

Portuguese | English | German | Greek | Japanese | Korean | Russian | T-Chinese top
NJF