「2003年度報告会・講演会」レポート

アジア太平洋機械翻訳協会

http://www.aamt.info/

2004年6月18日、神田駿河台の総評会館に於いてアジア太平洋機械翻訳協会(AAMT)の報告会、講演会が開催された。AAMTは、ヨーロッパのEAMT、南北中央アメリカのAMTAとともに、機械翻訳技術を代表とする多言語情報処理技術の更なる向上と有効な利用を目的に1991年に設立された組織。設立以降、世界会議である機械翻訳サミットの運営や各種の講演会・講習会の開催、技術動向やマーケット状況の調査など、設立の目的を達成するために活発に活動を続けている。報告会では各委員会、研究会の代表より2003年度の活動報告の発表があった。
辻井潤一会長 井佐原均氏 坂本義之氏 横山昌一氏

技術動向調査委員会 井佐原均氏(情報通信研究機構)より

 技術動向調査委員会では@翻訳ソフトをどういう人が使えば有効か、A機械翻訳を利用するユーザが、機械翻訳の不備に対してどのように適応するかなどについての調査報告があった。

@ではTOEIC690点以下の人では読解力が向上。Aでは不十分な訳文を見てどのように原文を書き換えるかという、翻訳リペアの過程を分析し、MTシステムに適応する過程を検証した。

Aの「折り返し翻訳リペア実験」
→MTシステム作成者が提供する原文作成時に有効な規則から70の規則を得る
→日本語を英語にMT出力したものをさらに日本語にMT出力した結果を見てリペアを行う
→京都大学石田研究室で67名の被験者による実験を行ない、20の規則が関連する10の例文を使用したところ
●原言語の知識が豊富な人ほど規則を数多く容易に獲得できる
●規則の教示を受けた人のほうが多くのルールを容易に獲得できる(言語知識が中レベルの被験者の獲得総合得点が上がった)
という結果が出た。

市場動向調査委員会 坂本義行氏(筑波女子大)より

「ベンダーへの市場調査アンケート」

2001年度、2002年度、2003年度(見込み)、2004年度(予想)の出荷本数と売上高を把握するため、2004年3月15日にアンケート調査を行なった。調査対象は国内で販売された、パッケージとバンドルの翻訳ソフトを「英日」「日英」「英日、日英双方句」「その他」に分類した。

● 調査結果:12社回答(27社発送、回答率44%)
パッケージでは「英日」「日英」は減少。「英日、日英双方句」は増加。小計ではやや増加。バンドルは「英日」「英日、日英双方句」とも減少。「日英」は無し。小計では減少。全体は減少している。パソコン出荷台数減少の影響か?

「一般ユーザへのアンケート調査」

2004年1月30日〜2月9日、英日Web翻訳に関するアンケート実施

●調査結果:有効回答数、1720
「年齢」30代以下60%、「性別」男性70%、「職業」会社員50%、「英語力」TOEIC500点未満85%、「Web翻訳利用有無」ある49%、「利用頻度」月1〜2回23%、「利用目的」個人使用39%、「利用種別」Web28%、「翻訳した情報」産業13%、「サービスを利用した理由」無料34%、概要が知りたい34%、手がかりが欲しい25%、「使わない理由」使い方が分からない20%。

その他、ネットワーク翻訳研究会 横山昌一氏(山形大学)、インターネットワークグループ 富士秀氏(富士通研究所)の報告があった。


アジア太平洋機械翻訳協会 講演会レポート

アジア太平洋機械翻訳協会(AAMT)の総会後に開催された3つの講演は、それぞれの切り口で現在の機械翻訳が置かれている状況、今後の展望を示す、注目すべきものとなった。ここにそれぞれの講演内容について本誌でまとめたレポートを掲載する。

講演I 「機械翻訳システムのブレイクスルーを求めて」

講師:田中 穂積 (タナカ ホズミ)
東京工業大学大学院 情報理工学研究科 教授
工学博士 元IAMT会長/元AAMT会長

講師のことば

最近、機械翻訳システムは、我々の身近な存在になってきているが、本格的な実用化の観点からはあと数歩のところにある。現在の機械翻訳システムにはブレイクスルーが求められている。機械翻訳システムは、一般には極めて多様な文を翻訳しなければならないこと、大量の文書を翻訳しなければならないことのために(それが機械翻訳システムのメリットの一つとなっているのだが)、翻訳用の知識として原言語の大量の辞書だけでなく、翻訳用の辞書や目標言語の辞書の開発をしなければならず、システムの開発には多大の労力と時間がかかる。21世紀前半には解決したい難問の一つであろう。 1980年代には、機械翻訳システムは研究者の多くの夢をかきたて挑戦もなされたが、現在はその熱も一服している段階にある。
機械翻訳システムは、原文を解析し、解析結果を翻訳対象とする目標言語に近い言語(あるいは原言語と目標言語の中間言語)に変換し、それを最終的な目標言語に翻訳する過程からなる。その中で最も重要な部分は原言語の文を解析する過程だろう。なぜなら、この部分の解析結果の良否は、その後のあらゆる処理過程の入力と出力に関連し、最終的な機械翻訳システムの性能向上に直接間接に影響してくるからである。現在の機械翻訳システムにブレイクスルーが求められているとすれば、それは、原言語の解析精度の向上に集約されていると言ってよいだろう。
 本講演では、原言語の解析に関する技術を概観する。特に過去20年を振り返ったとき、文法規則に代表されるルールベースの解析技術から、コーパスベースの解析技術に大幅な進展が見られたこと、この10年間に、自然言語処理の研究は、コーパスベースの研究一色に塗りつぶされている感がある、その理由は何か。また、コーパスベースの技術そのものにもブレイクスルーが必要な時期に来ているとみている人もいるが、それは本当か、ルールベースの解析技術の延長上には未来はないのか、両者を統合する第三の道はあるのかないのかなどを、私論を交えながら聴衆の皆様と一緒に考えてみたい。

 まず、田中氏は本日のテーマである機械翻訳のブレイクスルーについて「答えは無い状態」と明言。それをいかにつくり出すか、について機械翻訳(MT)の歴史をひも解きながら講演に入った。かなり専門的な講演だったため、以下はあくまで記者の理解した範囲でのまとめになることをお断りしておきたい。 まず機械翻訳システムと自然言語処理について
ルールベース
コーパスベース(統計ベース、用例ベース)
ルールベース+統計ベース
ルールベース+用例ベース
の四つの型が考えられるとした。
 ルールべースはMTの最も初期から開発されてきた文法規則をベースとして文の解析、生成をしようという方法で、60年頃から80年にかけて盛んに研究された。文法の解析についてはかなり深い層まで行なわれたが、多様な文のルール化が難しいという難局に直面し、方向性の転換を迫られる。
 そこで80年頃から90年頃にかけては、文法の解析はそれほど深くならないように抑え、その代わり辞書を大きくしてそこからの情報の適用によって翻訳を行なおう、という新たな方向性で研究されていく。
 90年に入るといよいよルールベースのソフトでは文脈を読めないため係り受けなどの不確定要素を正しく判断できない、という限界が明確になり、コーパスベースのMTが主流になっていく。文章データを大量に集めてデータベースをつくり、その中から原文に応じた文章規則を探し出し、翻訳するもので、ルールベースが克服できなかった多様な表現への対応も大きく改善された。コーパスベースの方法が発達してきた背景にはパソコンの処理能力の大幅な向上、大量のメモリが使用可能となったハード面の進歩の貢献が大きい。
 しかし、その技術によってそれなりに精度は上がったものの、従来の翻訳結果と比較して訳質の劇的向上にはつながらず、現在頭打ちの印象が否めない。このままさらにコーパスを充実させていくことでどこかに質的変換点があるのかどうかははっきりしない。もう少し研究が必要なのだ。
 そこでこの講演のテーマに掲げられたブレイクスルーが待望されるわけだ。この先の技術の方向性について田中氏はまず、単独のルールベースへの回帰はない、と明言。しかしコーパスベースのMTも結果としては似たりよったりのところがあり、またソフトの学習力も十分ではないようだ。そこで考えられているのがルールベースとコーパスベースのハイブリッド型だという。つまり冒頭に上げた4つのシステムの後ろ2つがそのブレイクスルーを担う方式となるかも知れないのだ。
 ここで田中氏の発言が興味深かったのは、現在のMTの基本になっている技術はいまだMTソフトの開発当初に基礎を置くものであり、その構造の上に現在のシステムが構築されている状態であること、現在そのシステムを全く新しい発想で見直し、作り直す時期に来ているのではないか、というものだった。
 例えば、ルールベースとコーパスベースの長所を組み合わせ、大量のデータの中からルールにもとづく類推による用例検索を行なう、検索による翻訳という形は考えられないか。つまりMTを一つの検索システムとして捉えられないか、といったことのようだ。
 現在考えられている中で有望な方法の一つはルールベースと用例ベースのコーパスを連携させ、用例を文法レベルと意味のレベルでパターン化して適用しよう、というものだ。ある言語を解析し別の言語に翻訳する場合、通常要素に分解したものを上手く再構成するのが困難なのだが、先程の文法レベルと意味レベルで処理したパターンを中間にいれることで異なる言語の形式に変換できるのではないか、ということだ。しかしこの類型パターンはかなりの数(なんと60億!)が必要とのことで、入力に大量の人手が必要となる。現在研究中の方法の中から画期的なブレイクスルーの登場が待望されているのだ。現場の地道なデータの積み上げと大胆な発想の切り替えの両方が求められているのだろう。機械翻訳に関わる研究者の、現在の生みの苦しみをうかがわせる講演だった。

講演II 音声言語翻訳技術の応用

講師:奥村 明俊(オクムラ アキトシ)
NEC メディア情報研究所 
Human Language Technology Group 研究部長

 インターネット社会となった現代、ブロードバンド&モバイル環境が充実し、ユビキタス情報時代が到来しつつある。膨大な情報が、テキスト、音声、映像など様々なメディアによって溢れているマルチメディア情報社会において、一般の人々が手軽に世界中の情報を利用するために、人間の言葉を処理する技術、Human Language Technology が極めて重要な役割を担いつつある。とりわけ、言語の変換、言葉による情報アクセス、メディアの複合的活用を実現する技術への期待は大きい。
 本講演では、NEC入社以来、機械翻訳や情報抽出などの自然言語処理、音声翻訳システムの研究開発に携わる工学博士・奥村氏が異言語コミュニケーション、言葉による自然なモバイルインタフェース、マルチメディアコンテンツの活用にむけ、現在の音声言語翻訳技術によって実現されている応用システムと課題を説明し、今後の発展の方向性について述べた。

 奥村氏のいう「音声言語翻訳技術」とは簡単にいうと、英語と日本語のような全く異なる言語を話す人に対しあいだに立って、話されたそれぞれの言語を認識し、自動的に相手の話す言語へと翻訳、発話する通訳ソフトのことだ。このような技術の実際的な応用例として、奥村氏はNECで開発を行なってきた「旅行会話自動通訳」を例に説明した。
 数万語規模の大語彙辞典を持ち、海外旅行の様々な場面においての会話(発話)を日英双方向に音声翻訳する通訳システムである。目的を旅行に絞ることで、通訳が必要な状況をある程度限定できる、という開発上の狙いもあったようだ。以下にその開発の歴史をかいつまんで紹介すると、
 1991年:Telecom'91に専用装置とWSによる試作自動通訳システムを出展。英、日とも500単語収録、不特定話者連続音声認識・発話の専用のハードウェアとしてチケット予約・観光案内などを行なうものだった。当時のデモ映像を見ると、実際に音声を聞き取り、翻訳して発話するまでにしばらくのタイムラグがあり、かなりまだるこしい感じではあった。
 2001年:旅行会話通訳PCソフト「たび通」発売。日本語5万語、英語2.5万語を収録。モバイルパソコンに搭載して動かす仕組みだが、この製品はタイムラグもわずかで、かなり自然に会話できる通訳ソフトになった。しかし、モバイルパソコンを持ち歩かなくてはならないのは、旅行という目的にとっては負担になる、いざ使いたい時にOSの起動時間がかかる、バッテリー持続時間に難がある、などからさらなる小型化を追求。
 2002年:旅行会話通訳PDAソフトを成田空港で実験。
 2003年:トラベル通訳端末試作発表。日本語5万語、英語2.5万語を収録。手のひらに載るサイズを実現した。
音声認識の最大のネックは音声ファイルが非常に重たく、それを通常の会話スピードの中で処理することと小型化を計ることは完全に矛盾する、という点だ。それまでの音声認識は予め用意された音の見本(音響モデル)と入力された音声を10o秒ごとに照合する方法が取られていたが、この音響モデル64000個を適正化して、ツリー構造にクラスタリングし、詳しく照合が必要な部分は残し、明瞭に聞き取れる部分はややラフな設定とすることで6000個まで減らし、コンパクト化することを可能にした。
 今後の技術展開としては「携帯電話の音声検索」(マニュアルを音声で検索し結果を携帯画面上に表示する)、「テキスト一体型映像閲覧システム」(音声認識を用いて言語インデックスを作成し、映像にシンクロさせて議事録やスライドを表示する)などの分野でほぼ実用化される段階まできているとのことだった。
 この発表はかなりインパクトのあるもので、音声認識と翻訳を組み合わせることによる可能性が非常に豊かなものであることを感じさせた。音声認識による入力はPCのキーボード操作が出来ない人たちにもPC操作への扉を開くことになるし、旅行用という限定を他の領域に変更すれば、一般の人たちが日常で使うさまざまな用途に対応させられるはずだ。例えば手紙を書いたり一般的なビジネスのやり取りを文書で行なうなど。現在翻訳ソフトで使われている専門辞書的な発想で、辞書を入れ替えると対応領域が変更できる、PDA端末をPCと接続可能とするなどで考えられる使用領域は大きく広がるはずだ。

講演III 特許翻訳における機械翻訳の活用

講師:川上 溢喜(カワカミ イツキ)
財団法人 日本特許情報機構 事業管理室長

 財団法人日本特許情報機構 (Japio) は特許データの作成・整備事業の一環として日本特許の要約文の英訳 (PAJ:Patent Abstract Japan) 作成事業を行っている。PAJとは特許庁から発行される公開特許公報の書誌だ。現在はCD-ROMで発行。インターネットで参照できる他、世界の特許庁にCD-ROMを送付している。
 Japioは2004年1月から翻訳の均質化および効率向上を図るため、機械翻訳結果を翻訳者に支援情報として配布するシステムの運用を開始した。川上氏は特許庁審査官・審判官として各国審査官と交流した経験から、特許の国際協調および審査効率の向上のために各国審査官の情報共有が有効なこと、および日本の情報提供は求められた情報を英語で直ちに行う必要性を痛感。 Japioに出向後、機械翻訳を活用したJapioの翻訳事業の効率化と質の向上を推進している。

 特許の国際化が進んでいる中、現在、日本、米国、欧州で世界の特許の7割程度をカバーしており、その大多数が英語での出願になっている。ただし現在中国、台湾、韓国などの出願が急激に増えている状況だそうだ。
 特許に関する翻訳のニーズとしては大きくわけると外国文献調査(できれば日本語で読みたい)、外国出願時の翻訳文作成(引用があればその文書も翻訳する必要がある)があり、外国出願時のコスト(一件につき約300万円といわれる)の4割が翻訳料になっている。
 Japioで実施されているMTを利用したPAJ作成のシステムを見てみよう。このシステムは昨年12月から実施されている。手順は以下の通り。

 公開特許公報から要約部分を抽出→前編集(長文、特殊な記号を使用している文などMTにかからないものを自動抽出)→支援情報作成(機械翻訳)→案件配付用サーバを介して在宅翻訳者(1000人以上)へ送付・翻訳→内部で校閲・校正→オーサリング→CD-ROMで特許庁へ

 この方法で翻訳に関して2つの効果があったという。@翻訳者に渡す前に機械翻訳で訳語を適用するため、使用する用語が均一化された。A予め専門用語が翻訳されているため辞書引きする手間がはぶけ効率が上がった。

問題点

MTの使用により効率化がはかれているが、問題もある。以下に主なものを挙げると、

@原文(日本語)に誤記があること…MTに上手くかからなくなる
A長文が多い特許文書(平均242文字)はMTの自動分割がうまく機能しない
(日本語の長文を単純に分割すると主語と述語がばらばらになって訳がおかしくなる、文の途中に大文字が現れるなどが起きる)
B分野別の用語選択の難しさ…日本語では同じでも英語に直した時に表記が異なる
C「もの」などの日本語に対する文脈による訳し分けができない
D造語が多い特許分野…未知語をMTが表示せず空白や*になる

以上のようなことはMTの弱点と呼べるものばかりで、現在のところ有効な対処方法はない。今後改善が望まれるところだ。

以上のような問題点を踏まえて、Japioでは翻訳メモリ、翻訳パターンの活用に期待しているとのことだ。講演では特許庁で実際にMTが使用されている実情を聞くことが出来、非常に有意義だった。

Copyright© 2004 Babel K.K. All Rights Reserved.

▲戻る