ページへ戻る
+ Links
印刷
自然言語解析/頻度解析用の異表記辞書を作る
の編集 ::
NJF Wiki
xpwiki
:
自然言語解析
/
頻度解析用の異表記辞書を作る
の編集
# ie705830 の編集
ページ内容:
*「たんし」とは [#ie705830] 「たんし」はBSDライセンスで公開されている表記ゆれ辞書です。国立国語研究所の表記統合辞書に基づいて、2009年にver1.1が公開され、2016年11月現在までそのままです。ちょっと古いですが、研究者でもない一般の人がすぐにダウンロードできるものが他に見当たりませんでした。とはいえ30万字近くの表記揺れが登録されているので、例えば前述の「焼鳥」や動物の名前などの基本的なところはほぼあります。 データはタブ区切りのテキストになっていて、各フィールドの定義は以下のとおりです。 -見出し語 -読み -発音 -品詞 -活用形 -同語と判断された「見出し語」のリスト 全て「NAIST Japanese Dictionary」を元にしているそうです。 例えば「すばらしい」という語を検索すると以下の項目が見つかります。 素晴しい スバラシイ スバラシイ 形容詞-自立 形容詞・イ段形容詞・イ段-基本形 素晴しい/素晴らしい/すばらしい 素晴らしい スバラシイ スバラシイ 形容詞-自立 形容詞・イ段形容詞・イ段-基本形 素晴らしい/素晴しい/すばらしい すばらしい スバラシイ スバラシイ 形容詞-自立 形容詞・イ段形容詞・イ段-基本形 すばらしい/素晴しい/素晴らしい 活用はいらないような気もしますが、送り仮名などに揺れがある可能性を考慮しているのかも知れません。または活用によって同じ品詞でも異なる語が同じ読みになるのかも知れません。実例は見つかりませんでした。 読みと発音は例えば「ええと」は読みは「エエト」ですが、発音は「エート」という風に、読み仮名をふるときと発音は異なることがあるので分けてあるようです。同一語かどうかは読みより発音を基準にしているようです。 品詞については、例えば「くじら」を検索すると、直観的に予想するのは動物の「くじら」です。 鯨 クジラ クジラ 名詞-一般 鯨/クジラ/くじら クジラ クジラ クジラ 名詞-一般 クジラ/鯨/くじら くじら クジラ クジラ 名詞-一般 くじら/鯨/クジラ しかし、穴を開けるという意味の「抉る(くじる)」の未然形もあり得ます。 抉ら クジラ クジラ 動詞-自立 五段・ラ行五段・ラ行-未然形 抉ら/くじら くじら クジラ クジラ 動詞-自立 五段・ラ行五段・ラ行-未然形 くじら/抉ら このようなこともあるので、品詞も重要です。 データの順番の仕様はわかりませんが、品詞や活用ごとに同じと見なされる単語が固まっているのは確かなようです。
編集の要約:
Q & A 認証:
ページ更新時は次の質問にお答えください。(プレビュー時は必要ありません)
Q:
「東京」の読みがな?(ひらがなで)
A:
お名前:
タイムスタンプを変更しない
テキスト整形のルールを表示する