- 現在との差分 を表示
- ソース を表示
- 自然言語解析/頻度解析用の異表記辞書を作る へ行く。
1: 2016-11-27 (日) 08:31:50 njf | |||
---|---|---|---|
Line 1: | Line 1: | ||
+ | *異表記辞書の必要性 [#z86db63c] | ||
+ | Mecabの形態素解析の結果を使い、外食の口コミに対して頻度解析を行い人気メニューを割だそうとしたときに、異表記(または表記ゆれ)が問題となりました。 | ||
+ | |||
+ | 例えば居酒屋で解析すると、同じメニューでも口コミによって異なる書き方をしているため、集計結果がかなり大きく変わってしまいます。特に気になったのが「焼鳥」で、これには以下の異表記があります。 | ||
+ | |||
+ | -焼鳥 | ||
+ | -ヤキトリ | ||
+ | -やきとり | ||
+ | -焼き鳥 | ||
+ | -焼きとり | ||
+ | |||
+ | どの書き方もそれなりに使われているため、これを一つにまとめるかそうでないかで集計結果がかなり変わります。 | ||
+ | |||
+ | 他には魚や動物の名前を漢字、ひらがな、カタカナで書いたり(例:サンマ、さんま、秋刀魚)する例も、どれもよく使うので結果に影響します。 | ||
+ | |||
+ | |||
+ | |||
+ | &font(Red){制作中}; |
- 自然言語解析/頻度解析用の異表記辞書を作る のバックアップ一覧
- 自然言語解析/頻度解析用の異表記辞書を作る のバックアップ差分(No. All)
- 1: 2016-11-27 (日) 08:31:50 njf
- 現: 2016-11-27 (日) 18:33:03 njf
ぺージ情報 | |
---|---|
ぺージ名 : | 自然言語解析/頻度解析用の異表記辞書を作る |
ページ別名 : | 未設定 |
ページ作成 : | njf |
閲覧可 | |
グループ : | すべての訪問者 |
ユーザー : | すべての訪問者 |
編集可 | |
グループ : | すべての訪問者 |
ユーザー : | すべての訪問者 |
Counter: 2746,
today: 3,
yesterday: 0