翻訳ソフト実践ワークショップ

第1回 原文の読み込みと前処理

 翻訳ソフトを使うには原文が電子データでなければならないのは言うまでもないことです。最近では、電子ファイルの原文をE-Mailなどで受け取って翻訳することが多くなりましたが、印刷物もまだまだ無くなりそうにもありません。今回は、英日翻訳の際にさまざまな形式の原文を対訳エディタに読み込んで前処理する方法を説明します。
★スタートする前に「PC-Transerの起動方法を見ておきましょう。

(画像をクリックすると、新しいウインドウが開いて大きな画像が表示されます)

【1】入力

 短い文章ならキーボードから入力しても良いでしょう。直接対訳エディタに打ち込んでも構いませんが、一旦、ワープロソフトやテキスト・エディタに入力して名前を付けて保存し、そのファイルを対訳エディタで開いた方が良い場合もあります。こうすると、段落情報が保持されます。また、「オリジナル文」機能も有効になりますので、原文をリライトしてもクリック一つで元の文に戻すことができます。
 対訳エディタに直接入力する場合、「Enter」キーを押すとカーソルが次のセルに移動し自動的に次の文番号が付加されます。入力編集の際に必須の「切り取り」「コピー」「貼り付け」「全てを選択」などのショートカットはおなじみの「Ctrl+X」「Ctrl+C」「Ctrl+V」「Ctrl+A」が使えます。「元に戻す」も「Ctrl+Z」です。

演習

【2】印刷物の電子化

 PC-Transer V10にはOCRソフト「e.Typistエントリー」が付属しています。OCRとはOptical Character Recognition(光学式文字認識)の略で、スキャナで読み込んだ画像の文字部分をテキスト・データにする技術です。最近のOCRの認識率は大変良くなっていますが、うまく読み取れたと思ってもじっくり見るとスペルが違っていることがありますので、一旦、MS-Wordなどでスペルチェックした方が良いでしょう。

演習

【3】ファイル読み込み

 原文が電子ファイルになっている場合は対訳エディタの「ファイル」→「開く」で読み込みます。TXT、Word、PDF、HTML、SGMLのファイルを直接開くことができます。この中でWord、PDFはバイナリ・ファイルです(テキスト・エディタで開くと文字化けして読めません)。バイナリ・ファイルの場合は表面的に文字を抜き出して読み込むことになりますので段落以外のレイアウトは保持されません。アプリケーションを開いてコピー・アンド・ペーストしたような状態です。PDFの場合、画面に表示された順番と異なって読み込まれることがあるので注意が必要です。
 HTMLはタグも同時に読み込まれ保持されます。翻訳が終わって訳文をテキスト出力すれば、元のレイアウトのまま訳文が表示されます。
 「開く」ウインドウで「詳細」にチェックを入れると、ピリオドなどの文末を表す記号ではなく、段落改行までが1行とみなされて読み込まれる「1行1文読み込み」や事前に登録した検索・置換を行ってから読み込む「ユーザー前処理して読み込み」などのスクリプトを使って開くことができます。また、日本語が混じった英文を開いたり、指定訳語を原文に挿入したりして開くこともできます。

演習

【4】コピー・アンド・ペースト

 Wordなどのアプリケーションで文書を開いておいて必要な部分だけ対訳エディタにコピー・アンド・ペーストすることができます。
Excelなどの表計算ソフトから貼り付ける際に「編集」→「1行1文貼り付け」を行うと、ピリオドなどの通常の一文切り出しではなく、セルごとに1文とみなされて貼り付けられます。

演習

【5】前処理

 原文を読み込んだらスペルチェックをかけましょう。訳文が正しく出力されない原因のうち多いのはスペルミスと文末判定ミスです。タイトルなどが本文とつながっていないか、箇条書の項目が1行になっていないか確認しましょう。
 「未知語リスト出力」はユーザ辞書に登録する見出し語選定の参考になります。PC-Transerには基本語辞書辞書だけでも63万語(英日)搭載されていますので、未知語と言ってもほとんどが商品名などの固有名詞でしょう。
 原文にどのような単語が使われているか調べるために行うのが「頻度リスト出力」です。頻度の高い語句はユーザ辞書登録の対象になります。検索単語数を変更することで熟語をリストアップすることもできます。

演習

【6】保存

 原文の読み込みと前処理が済んだら一旦「名前を付けて保存」しましょう。拡張子が「.edh」のPC-Transer独自形式で保存されます。この形式では、原文と訳文だけでなく設定情報なども保持されます。
 ファイルを他のアプリケーションでも開きたいときは「テキスト出力」を行います。「原文ファイル」「対訳ファイル」「訳文ファイル」「編集ファイル」の4形式のテキスト・ファイルに書き出すことができます。PC-Transer独自形式で保存しておいて必要に応じてその都度これらのファイルを書き出すようにするとファイルの管理が楽になります。

演習

【7】原文の分析

 MS-Wordの「読みやすさの評価」機能を使って簡単に原文の分析をしておきましょう。「読みやすさの評価」の項目で、「1センテンス当たりの平均単語数」が多いと、1文が長く構文が複雑でそのままでは訳文がうまく出力できないと予想できます。「1単語当たりの平均文字数」が多いほどビッグ・ワード(難解な専門用語)が使われている可能性がありますが、適切な辞書を設定すればうまく訳出できます。逆に文字数が少ないと簡単な単語を使った慣用的な表現の文章であることが多く、翻訳ソフトではうまく訳せないことがあります。また、「受身の文章の比率」が高いほど、回りくどく読みにくい訳文が出力されることが多いと考えられます。

演習

 今回は、原文ファイルの準備方法について説明しました。どんなに高性能な翻訳ソフトでも原文にスペルミスがあったり、センテンスが不完全だったり、構文が極端に複雑だったりすれば最初から正しい訳は出力されません。翻訳ソフトを使う上で原文ファイルの準備は大変重要なのです。
月刊『eとらんす』 2003年11月号連動  Copyright© 2003 Babel K.K. All Rights Reserved.


MT研究会 オンライン講座 掲示板 研究レポート・試用レポート リンク集 メール