ニューラル機械翻訳（NMT）

この記事では、ニューラル機械翻訳（NMT）の特徴、およびその長所と短所に関するインサイトを提供しています。

著者： Andreea Balaoiu

技術の発達が続くこの21世紀という時代に生きる私たちは、人工知能というものについて、それが本当に素晴らしいものであるということ、そして非常の多くの現代的な分野において広く利用されるようになっていることを否定することはできないでしょう。

これに関する一例は翻訳・ローカリゼーション業界であり、ここでは世界中の事業に対して言語サービスの生産性の最大化と所要時間の最短化を目的として、機械翻訳の研究開発が継続して行われてきました。

世界中で取引が絶えまなく行われ、様々な市場や文化の間において国際的コミュニケーションの必要性が高まり続け、多くの企業がコストを削減する一方で生産性と取扱量は増大させることを目的としてニューラル機械翻訳システム（NMTS）の取り入れを望んでいるため、NMTSにとっては好都合な状況が生まれています。

それでは、これからNMTのコンセプトについて深く掘り下げていきましょう。主な特徴、ワークフロー、利用法、潜在的な利点、限界について見ていき、これが業界にとって本当に有用なものなのか、単に理論上の翻訳・ローカリゼーションソリューションなのかについて結論を導き出します。

ニューラル機械翻訳とは何でしょうか？

ニューラル機械翻訳（Neural Machine Translation：NMT）とは、従来の翻訳方法の一般的な弱点を克服することを目的として最先端のAIを駆使したエンドツーエンドアプローチの自動翻訳サービスです。

NMTはディープラーニングの手法を用いる最新鋭のアプローチで、従来の機械翻訳ソリューション（典型的な例は「DeepL Translator」や「みらい翻訳」です）と比べて間違いの少ない翻訳が行われます。

これは人間の脳に近い形で構築されているニューラルネットワークを利用した最新形態のMT（機械翻訳）で、データを様々なグループおよび層に分類することが可能です。

NMTの中核を構成するのは、既存のバイリンガルデータベースと、能率・スピード・品質の継続的改善に役立つ自動学習プロセスです。

ニューラル機械翻訳とフレーズベース機械翻訳の異なる点

機械翻訳の主なアプローチは、ルールベース、統計、ニューラルの3つです。

ルールベース機械翻訳（RBMT ）:

（単にMTの「従来的アプローチ」とも呼ばれます）は、単言語、二言語または多言語の辞書および文法書から引き出した各言語の主要な語義、形態、統語の規則性という原語と翻訳対象言語に関する言語的情報に基づいて翻訳を行います。
統計的機械翻訳（SMT）:

は、機械翻訳のパラダイム（方法論）のひとつで、統計モデルと二言語のテキストコーパスの厳密な分析から得られたパラメータによって翻訳文を作成します。
フレーズベース機械翻訳（PBMT）:

は、統計的機械翻訳の一形態で、特定の文章の翻訳の仕方をコンピューターに教育する予測アルゴリズムが用いられます。
PBMTの基づくデータは、これまでに翻訳された様々なバイリンガルテキストであり、最終的な翻訳の質に大きく関わります。

NMTとルールベースや統計的機械翻訳の主な違いは、NMTは単語のベクトル表現を利用することで、これによってその構造は従来のMTのモデルやシステムよりもシンプルなものになっています。
ベクトル表現とは単語をベクトルに変換する（embedding）プロセスで、これを用いて主に単語の類似性の発見と語句のトーンに対するセンチメント分析が行われます。

NMTがもたらす可能性のある利点

2016年に発表された詳細な技術論文『Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation（Googleのニューラル機械翻訳システム：人間と機械翻訳のギャップを埋める）』によれば、「NMTの強みは、入力文から対応する出力文までマッピングを行うというエンドツーエンド方式で直接学習する能力にあります」ということです。

また、従来のルールベースおよびフレーズベースの機械翻訳システムと比べると、NMTには原語と翻訳対象言語を言語的に適合させ、外部のアライメントモデルを模倣し、単語を小さな単位に分割するという固有の能力があります。

自動化:

アルゴリズムを用いて統計的モデルから言語規則を学習する人工知能の機能は進化し続けています。

NMTのオペレーティングモデルは優れたタイプのフレーズベースモデルであり、情報の並行コーパスを処理して、そこから幅広い翻訳パラメータを得ます。

その結果、技術・専門用語はあまり用いられていない一般的な文章であれば、ニューラル機械翻訳システムは正確性の向上した翻訳文を生成し、編集後に必要な時間を最大25％低減させられる可能性があります。
翻訳資源の少ない言語に対するある程度の適用性:

ニューラル機械翻訳システムは、ローカル依存関係の効果的な導入および文の並べ替えの適合と学習を行う単語アライメントによって「言語のギャップを埋める」ことが可能であり、これにより所望の言語の組み合わせのコーパスがそれぞれ追加され、確実にクロスリンガルな翻訳が生成されるため、一部の翻訳資源の少ない言語に対しては効果を発揮するでしょう。
PBMTより優れた語彙能力:

フレーズベース機械翻訳と比べると、NMTはシステム間の変動性が高いため、より流暢で、語形変化する翻訳が生成されます。
Luisa Bentivogliの「Neural versus Phrase-Based Machine Translation Quality: a Case Study（機械翻訳の品質　ニューラル対フレーズベース：事例研究）」（2016）によれば、初期の純粋にフレーズベースの機械翻訳アプローチと比べると、NMTの性能は単語の並べ替え、形態、統語、一致に関してPBMTより優れていることが明らかにされました。
少ないメモリ使用量:

NMTの機能は非常にコンパクトな方式なので、SMTモデルが必要とするものよりはるかに少ないメモリ領域しか使いません。
エンドツーエンドアプローチ:

NMTの機能を確保するすべての要素はエンドツーエンドアプローチで連帯的に訓練され、従来の他のMTアプローチと比べて、対象言語への翻訳の生産性は最大化され、所要時間は最小化されます。
言語、翻訳、並べ替えに別々のモデルを用いるPBMTと異なり、NMTは一度に一単語を予測する単一のシーケンスモデルのみを使います。
このシーケンスモデリングは、エンコーダーニューラルネットワークが入力文を判読して、一定の長さのベクトルにエンコードし、デコーダーが翻訳を出力するという「エンコーダー・デコーダー」アプローチによって行われます。

NMTの限界

ただし、NMTは完璧な解決策というわけではなく、リンギストによるTEPという標準的なプロセスと比べると様々な限界が存在しており、確認作業が必要な状況が続いています。

語彙および文脈の面での限界

NMTは、語彙と文脈の把握に関しては最も進化した機械翻訳の形態ですが、人間による翻訳と比べると語彙の広さと深さは全く十分ではないことが分かっています。

NMTモデルの「語彙に対する堅牢性の不足」のため、語彙の正確さと範囲にそのような不安定性は許容されない専門用語を必要とする重量な専門分野などの多くの領域ではあまり利用されないという結果になっています。

これに関する具体的な例として、Google AIの最近の研究記事で扱われている法的文書の抜粋が挙げられます。この「Robust Neural Machine Translation（堅牢性の高いニューラル機械翻訳）」（2019）という記事では、事件調査における決定事項について明確に伝えなければならない翻訳に生じた問題をはっきり目にすることができます。

表：入力文の変化に応じて生成されたNMT翻訳文の比較

ドイツ語のソーステキスト	Transformer NMTモデル英語翻訳
Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die geladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen.	The spokesman of the Committee of Inquiry has announced that if the witnesses summoned continue to refuse to testify, he will be brought to court.
Der Sprecher des Untersuchungsausschusses hat angekündigt, vor Gericht zu ziehen, falls sich die vorgeladenen Zeugen weiterhin weigern sollten, eine Aussage zu machen.	The investigative committee has announced that he will be brought to justice if the witnesses who have been invited continue to refuse to testify.

このような特別な状況においては、NMTソリューションは摂動（微妙な違い）に反応し過ぎた翻訳を生成してしまいます。入力文にわずかな変更が加えられただけで、最も一般的なエラーである訳抜け、重複訳、誤訳のどれもが生じてしまうのです。

上記の事例では、入力文の「geladenen」を「vorgeladenen」にするという小さな変化が、出力の基礎アルゴリズムに影響を与え、対象言語の翻訳を誤って変化させ、誤訳となってしまっています。

さらに、Google AIの研究者によって最近発表された論文「Robust Neural Machine Translation with Doubly Adversarial Inputs（二重の敵対的入力を伴う堅牢性の高いニューラル機械翻訳）」（2019）では、入力文のノイズとなる摂動に対するNMTの脆弱性が強調されています。これに関する例として政府または外交に関する文書の引用と思われる文章が用いられ、入力文がわずかに変更されるとNMTは訳抜けを起こしやすいという理論が証明されています。

この翻訳例は英語-中国語のTransformer NMTモデルおよび別の中国語-英語のNMTモデルを用いてバックトランスレーションが行われ、このバックトランスレーションのデータとオリジナルの並列データが使用されました（Cheng, Jiang, Macherey, 2019, Google AI）。

表：元の入力文とノイズを加えた入力文に対するTransformer NMTモデルと別のNMTモデルによる翻訳の比較

Transformer NMTモデル英語-中国語インプット	这体现了中俄两国和两国议会间密切(紧密)的友好合作关系
ソース	this expressed the relationship of close friendship and cooperation between China and Russia and between our parliaments
Transformer NMTモデル中国語-英語逆翻訳	this reflects the close friendship and cooperation between the two countries and the two parliaments.
その他中国語-英語MTモデル逆翻訳	this reflects/embodied the close relations of friendship and cooperation between China and Russia and between their parliaments.

入力された中国語は「这体现了中俄两国和两国议会间密切 (紧密)的友好合作关系」であり、これに対して「this expressed the relationship of close friendship and cooperation between China and Russia and between our parliaments」という英文が参照文（基準）とされました。

Transformer機械翻訳モデルは、「close」という単語に対して「密切」と「紧密」という中国語の同義語2つの翻訳を生成しました。一方、中国語から英語へのMTバックトランスレーションでは意味の摂動が「ノイズ」となり、「this reflects the close friendship and cooperation between the two countries and the two parliaments」（Vaswani et al.のモデルを使用）という省略された翻訳が生成されましたが、NMTのバックトランスレーションでは、参照文の主要要素である「China and Russia」という国名が保たれました。

上記の例は、機械翻訳は入力文の質に応じてある程度正確な意味の翻訳を行えるように自動化されてはいますが、高度の堅牢性と一貫性に関しては人間が行う翻訳の言語「感覚」にはまだ及ばないということが示されています。

フォーマットの面での限界

NMTにもうひとつ存在する重大な限界は、いろいろな種類のフォーマットに対応して翻訳を生成する柔軟性に欠けることです。NMTの使用に適する文書やフォーマットのタイプは限られており、不適切に機械翻訳を行ってしまうと個人や機密のデータの漏洩につながる場合があります。

最先端の翻訳セキュリティシステム、優秀な専門家、ワークフローを適正に管理する最新技術を擁する専門的な言語サービス提供事業者を利用することが最善であるのは、これが理由です。

専門性の面での限界

大きなニューラルネットワークにはすべて大きな責任が伴い、NMTのシナプスは人間のエンジニアとアーキテクトの専門性と意思決定能力なしには効率的に機能しないことがこれを証明しています。

大量の言語データによる事前の訓練と広範囲のパラメータに応じて機能させるプログラムをモデルに対して行わなければならないため、NMTの開発には高度の専門性と多くの実験が必要です。

またNMTシステムは、記憶（通常、以前検索した語彙から得た情報）を短期で失ってしまう傾向があります。これは、並んだ隣の人からささやかれた内容をそのまま次の人に伝えなければならないチームワークづくりのゲームに似ており、最後の人の言葉（翻訳）が最初の人の言葉（入力）の正確な再現とならないのです。

正確性の面での限界

NMTツールは特定の言語ペアと主題における原語と翻訳の文節の大量のコーパスによって「訓練」され、NMTが出力した翻訳文と原文とを照らし合わせ、必要に応じて訂正するという確認作業をプロの翻訳家が行うことを継続して必要とします。

多くの場合でNMTの翻訳は信頼性が低く、予測不可能または全く理解できないもので、正確性や一貫性を確保できないため、誤った翻訳を自動的に検知し、訂正することは困難になっています。

正確性に対するNMTの論理的誤りを示す面白い例を下にご紹介します。これは、日本語の意味のない言葉の英訳としてGoogle翻訳が生成したものの画像です。

日本語のひらがなの「か」と「れ」を連続して入力した2つの例が示されていますが、対応して生成されている英訳はそれぞれ見事に異なり、一貫性に欠けています。

原文を全く無視しても、出力された翻訳の無意味さ、一貫性のなさ、滑稽さは判断できます。

このように言語的におかしなものとなる固有の事態を避けるために、NMTプロセスには機械翻訳編集後の段階で少なくとも1人の内容領域専門家を関与させるべきです。

ただし、NMTの生成する翻訳は、3名のリンギスト（言語の専門家）が作業する標準的なTEP（翻訳・編集・校正）ワークフローによって確保される翻訳の品質にはまだ到底及びません。翻訳の最高品質と一貫性を確実なものとするためには、1名よりも3名による確認の方が優れて徹底的であることは当然のことでしょう。

まとめ

この記事では、NMTのコンセプトについてご紹介し、これが業界にとって本当に有用なものなのか、単に理論上の翻訳・ローカリゼーションソリューションなのかについて判断するため、主な特徴、ワークフロー、利用法、可能性のある利点、大きな限界について見ていきました。

テクノロジーは今後も進化を続け、様々なコンテンツや言語的課題に対して、迅速で、自動化され、費用対効果の高い翻訳・ローカリゼーションサービスを求める企業がますます増えていくのが時代の流れであることは否定できません。

しかし、ここでご留意いただきたい非常に重要なことは、NMTは人間が作業する標準的なTEPプロセスに取って代わるものだと考えるべきではないということです。この自動翻訳は高度な専門用語、または文化的なルールや感情を害する可能性のあることに対する深い知識を必要としない分野の範囲に限られるものだと見なしてください。

NMTは、翻訳技術を活用してすべて人間が行うTEPプロセスには遠く及びません。NMTは単一の入力文を対象言語に単に置き換えることができるだけであり、誤訳などのミスを生じずに一貫性と正確性を持つ出力を確実に行う能力に欠けているからです。

AD VERBUMが常に目的としておりますのは、翻訳のデジタルシナプスを強化し、お客様の翻訳・ローカリゼーションプロジェクトのお手伝いをすることです。これを幅広い分野における深い知識と専門性、そして最新鋭の翻訳技術とプロセスを活用し、最も重要なことであるすべて人間が行う翻訳・ローカリゼーションサービスをもって行っています。

結局のところ、未来の目的地への地図は、まず人間の手によって描かれるということなのです。

どうぞ翻訳・ローカリゼーションの目的地への旅のお供にAD VERBUMをお連れください。

AD VERBUMと共に新たなグローバル市場へ進出しましょう

見積依頼

参照：

Google’s Neural Machine Translation System: Bridging the Gap between Human and MachineTranslation (2016), Y. Wu, M. Schuster, Z. Chen, Q.V. Le, M. Norouzi, et al.

Neural versus Phrase-Based Machine Translation Quality: a Case Study (2016) Luisa Bentivogli, Arianna Bisazza, Mauro Cettolo, Marcello Federico.

Robust Neural Machine Translation Google AI Blog article published Monday, July 29, 2019 by Yong Cheng, Software Engineer, Google Research.

Robust Neural Machine Translation with Doubly Adversarial Inputs (2019), Yong Cheng, Lu Jiang, Wolfgang Macherey.

Attention is all you need (2017) (article publiched In Advances in Neural Information Processing Systems) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin.

ブログ

ニューラル機械翻訳（NMT）

著者： Andreea Balaoiu

ニューラル機械翻訳とは何でしょうか？

ニューラル機械翻訳とフレーズベース機械翻訳の異なる点

ルールベース機械翻訳（RBMT ）:

統計的機械翻訳（SMT）:

フレーズベース機械翻訳（PBMT）:

NMTがもたらす可能性のある利点

自動化:

翻訳資源の少ない言語に対するある程度の適用性:

PBMTより優れた語彙能力:

少ないメモリ使用量:

エンドツーエンドアプローチ:

NMTの限界

語彙および文脈の面での限界

表：入力文の変化に応じて生成されたNMT翻訳文の比較

表：元の入力文とノイズを加えた入力文に対するTransformer NMTモデルと別のNMTモデルによる翻訳の比較

フォーマットの面での限界

専門性の面での限界

正確性の面での限界

まとめ

参照：

ISO 17100:2015

ISO 9001:2015

ISO 27001:2013

ニュースレター購読

ブログ

ニューラル機械翻訳（NMT）

著者： Andreea Balaoiu

ニューラル機械翻訳とは何でしょうか？

ニューラル機械翻訳とフレーズベース機械翻訳の異なる点

ルールベース機械翻訳（RBMT ）:

統計的機械翻訳（SMT）:

フレーズベース機械翻訳（PBMT）:

NMTがもたらす可能性のある利点

自動化:

翻訳資源の少ない言語に対するある程度の適用性:

PBMTより優れた語彙能力:

少ないメモリ使用量:

エンドツーエンド アプローチ:

NMTの限界

語彙および文脈の面での限界

表： 入力文の変化に応じて生成されたNMT翻訳文の比較

表： 元の入力文とノイズを加えた入力文に対するTransformer NMTモデルと別のNMTモデルによる翻訳の比較

フォーマットの面での限界

専門性の面での限界

正確性の面での限界

まとめ

参照：

ISO 17100:2015

ISO 9001:2015

ISO 27001:2013

ニュースレター購読

エンドツーエンドアプローチ:

表：入力文の変化に応じて生成されたNMT翻訳文の比較

表：元の入力文とノイズを加えた入力文に対するTransformer NMTモデルと別のNMTモデルによる翻訳の比較