頻度リスト出力
頻度リストを出力するには、先ず原文を読み込んでから、「ツール」メニュー→「頻度リスト出力」をクリックします(図1)。
(図1)
「頻度リスト出力」ウインドウが開いたら、「パラメータ」「ストップ・ワード」「出力ファイル名」を設定します(図2)。
(図2)
「単語最小数」と「単語最大数」で検索する語数を指定します。ここでは2語から3語について頻度を調べます。
「頻度最小数」でリストアップする語句の頻度を指定します。ここでは3回以上でてくる語句を抽出します。
「ストップ・ワード」とは検索から除外する単語(文字)のことで、冠詞、前置詞など極めて頻度が高く、検索語に含めてもあまり意味のないものをリストアップしてあります。stopwords.txtというファイルがデフォルトで用意されているのでチェックを入れておきます。(テキスト・ファイルなので自分で変更することもできます)。
「出力ファイル名」は任意の場所に任意の名前を付けることができます。
出力ファイル
それでは、出力されたファイルをテキスト・エディタで開いてみましょう(図3)。
(図3)
出現頻度3回から14回までの語句が54件リストアップされています。
左から「単語」「頻度」「文番号」の順でそれぞれタブで区切られています。
これをExcelに読み込むと作業しやすくなります(図4)。このように、単語の右側に訳語を入れる列を挿入しておくと便利です。
(図4)
Excelファイルからユーザー辞書ソースを作成する方法は「辞書機能」のところでみっちりやりましょう。
|