翻訳ソフト実践ワークショップ
第1回 原文の読み込みと前処理 【演習】

頻度リストの出力

翻訳ソフトを使う上で、辞書の整備は大変重要な作業です。迅速に辞書の見出し語を抽出する方法として「未知語リスト」を利用することが挙げられますが、これでは、辞書に無い固有名詞や数字、記号などが引っかかるだけで、キーワードを抽出することはできません。
ここでは、「頻度リスト出力」機能を活用してユーザ辞書登録用の見出し語を抽出してみましょう。

頻度リスト出力

頻度リストを出力するには、先ず原文を読み込んでから、「ツール」メニュー→「頻度リスト出力」をクリックします(図1)。
(図1)

「頻度リスト出力」ウインドウが開いたら、「パラメータ」「ストップ・ワード」「出力ファイル名」を設定します(図2)。
(図2)

「単語最小数」「単語最大数」で検索する語数を指定します。ここでは2語から3語について頻度を調べます。
「頻度最小数」でリストアップする語句の頻度を指定します。ここでは3回以上でてくる語句を抽出します。

「ストップ・ワード」とは検索から除外する単語(文字)のことで、冠詞、前置詞など極めて頻度が高く、検索語に含めてもあまり意味のないものをリストアップしてあります。stopwords.txtというファイルがデフォルトで用意されているのでチェックを入れておきます。(テキスト・ファイルなので自分で変更することもできます)。
「出力ファイル名」は任意の場所に任意の名前を付けることができます。

出力ファイル

それでは、出力されたファイルをテキスト・エディタで開いてみましょう(図3)。
(図3)

出現頻度3回から14回までの語句が54件リストアップされています。
左から「単語」「頻度」「文番号」の順でそれぞれタブで区切られています。
これをExcelに読み込むと作業しやすくなります(図4)。このように、単語の右側に訳語を入れる列を挿入しておくと便利です。
(図4)

Excelファイルからユーザー辞書ソースを作成する方法は「辞書機能」のところでみっちりやりましょう。

月刊『eとらんす』 2003年11月号連動  Copyright© 2003 Babel K.K. All Rights Reserved.