今日も尚、機械翻訳は飛躍的な進歩を遂げています。当技術は学生の外国語の宿題を手伝うことからプロの翻訳者を支援することまで幅広いシーンで使われています。しかし、多くのアイデアと同様に、このテクノロジは一朝一夕でできあがったわけではありません。今日まで機械翻訳がどのように発展してきたかを見てみることが重要です。
機械翻訳の起源は1933年まで遡る
機械翻訳は、1933年、ピーター・トロイアンスキー氏がソ連科学アカデミーで発表した「ある言語から別の言語に翻訳するときの単語の選択と印刷のための機械(”the machine for the selection and printing of words when translating from one language to another)」まで遡ることができます。
この機械は今日の基準からすれば単純なものでした。それはタイプライター、フィルムカメラ、そしてそれぞれに4種類の言語が書かれたカードで構成されているものでした。このからくりの大部分は、このマシンを操作するユーザーによってつくられました。その操作するユーザーはまず翻訳する言葉の写真を撮り、その後、その言葉持つ語形論上の特徴(品詞、複数か単数か、女性形か男性形か)をタイプライターで入力し、元の言葉とその語形論上の情報をテープとフィルムに出力して出すという内容でした。
当時、誰もこの技術を画期的なものとして評価することはなく、Tryonskiiの死後、他のソビエトの学者が1950年代にその特許内容を見つけるまで20年の間、ほとんど見過ごされていました。
ジョージタウン大学の実験(Georgetown Experiment)
機械翻訳に一脚浴びせたのは、Georgetown大学とIBMの共同実験(”The Georgetown Experiment”)でした。関心が高まった理由の一つは1954年という時期です。アメリカ―ソ連の冷戦の真っただ中にあったことです。
今回の実験では、IBM 701コンピュータを使用して、今度はその場での瞬時的な翻訳を提供しました。この実験ではロシア語で60文が英語に訳され、機械翻訳への関心の高めたひとつの大きな出来事とされています。
残念なことに、1966年までに米国の科学者委員会であるALPACは、機械翻訳を「高価で、不正確、そして見込みがない」と報告していました。
社会的からの絶賛的な評価は得ることはできませんでしたが、技術革新を完全に止めたわけではありませんでした。中には、その後も機械翻訳に向けて研究を捧げた科学者のグループがいたため、政府機関からの関心がないにもかかわらず今日にい至るまでの技術革新を成し遂げることができました。
では、ここで現在に至るまでの機械翻訳の主なメソッドを見ていきましょう。まずは前回紹介した統計的機械翻訳(SMT)の中で使用される「ルールベースの翻訳」、またニューラル機械翻訳を見ていきます。
ルールベースの翻訳(Rule-Based Transltion)
1970年代には、ルールベースの機械翻訳が次の主役の座をしめました。この技術は、言語のガイドラインに基づいてある言語を別の言語に切り替えるためにプログラマーによって入力された一連の規則やルールを適用しました。しかし欠点は、微妙な言語間のニュアンスの違いが拾われることなく、抜け落ちてしまうということです。当技術は現在は統計的機械翻訳(SMT)の中で使用されています。
ニューラル機械翻訳 (Neural Machine Translation)
機械翻訳に於いて次に着目を浴びたのは、 ニューラル機械翻訳です。この技術は、規則やルールだけではなく、機械学習もします。つまり、これらのシステムは人間の思考を模倣するように設計されており、人間の脳の様に、より多く使われることによって、より多くのことを学び、正確さを増します。
機械翻訳は長い間行われてきました。カジュアルなシーンから政府機関の利用に至るまで、さまざまな場面で今日の成長にまでつながってきました。このため、機械翻訳は一般的になりつつあり、将来的には成長すると見込まれています。
そのほか、現在一番よく知られている統計的機械翻訳(SMT)とニューラル機械翻訳(NMT)以外にどのような翻訳があるか見てみましょう。
直接機械翻訳(Direct Machine Translation)
次紹介するプロセスは直接機械翻訳です。このタイプの機械翻訳は入力されたフレーズを取り、それを単語に分割します。そこから、それらを直接翻訳し、言語間の文の構造を修正しようとします。かなり不格好な翻訳を出力する傾向があったため、現在あまり人気がありません。
転送ベースの翻訳(Transfer-Based Translation)
直接機械翻訳の後、転送ベースの翻訳が登場しました。言葉の代わりに、このプロセスは文法から始まりました。言い換えれば、文が「私は走った」で始まっていれば、機械はそれを「私」と「走った」を別々に翻訳するのではなく、文法的な塊として翻訳する手法です。しかし、これにも欠陥がありました。つまり、言語間の構造の違いを加味するよりも、むしろ直接の翻訳に近い動きをしました。
言語間翻訳(Interlingual Translation)
転送ベースの機械翻訳と非常によく似ているのが、言語間翻訳です。これはほぼ同じように機能する手法ですが、単純なペアではなく第3言語を使用することにより、実現する内容でした。この拡大は重要な進化でした。
用例ベースの機械翻訳(Example-Based Machine Translation)
政府が機械翻訳に非常に興味を持っている国が1つあれば、それは日本でした。これは、グローバリゼーションの並列化と人口に英語を話す人が少ないということから生じたニーズでした。この新しいシステムは、1984年に京都大学の長尾誠氏によって開発されました。
これは例題を修正したもう一つのルールベースのシステムでしたが、それは特別なしかけを持っていました – それは他の言語で同じ意味を持っていなかった単語を組みとり翻訳できました。これは日本語と英語の大きな違いから来たようです。そのため、単語を直接翻訳できない場合は、同義語が使用されるような仕組みでした。
機械翻訳の今後の展望
これらのシステムは私達が現在使っている統計的機械翻訳(SMT)、そして最近でニューラル機械翻訳(NMT)のようなものへの発展へと導きました。この歴史は継続して軌道に乗っており、今後も様々な言語間で正確で素早い翻訳を導きだすことでしょう。