36 AIとは: 自然言語処理
自然言語処理は過去50年間にわたって研究が行われてきたトピックです。これにより、私たちが毎日使用している多くのツールが開発されました:
- ワードプロセッサ
- 自動文法および綴りの修正
- 自動補完
- 光学文字認識(OCR)
最近では、チャットボット、ホームアシスタント、自動翻訳ツールがあらゆる分野で大きな影響を与えています。

長い間、言語固有の複雑さによって研究と産業は停滞していました。20世紀の終わりには、専門家によって記述された言語の文法規則は最大で50,000のルールにも及びました。こうしたエキスパートシステムは、技術が変化をもたらし得ることを示していましたが、確固たるソリューションを開発するには複雑すぎました。
一方、音声認識は音響データを利用してテキストに変換できる必要がありました。多様な話者が存在する中で、これは確かに困難な作業でした!
研究者たちは、対象言語のモデルがあれば、物事はより簡単になるだろうと理解していました。その言語の語彙や文の形成方法を知っていれば、与えられた発話に一致する候補文の中から適切な文を見つけたり、可能な語句列から妥当な翻訳を生成したりすることが容易になります。
もう一つの重要な側面は意味論でした。言語的な問いに対処できる作業のほとんどは浅いものであり、アルゴリズムはいくつかの局所的な構文規則に基づいて答えを生成します。最終的にテキストが意味を持たないとしても、それはそれで構いません。生徒の書いたテキストを読むときに同様のことが起こるかもしれません – テキストが何についてのものか本当に理解せずに、間違いを修正することもありえます!真の課題は、テキストに意味を結びつけ、可能であれば発話された文に意味を結びつけることです。
2008年には驚くべき結果がありました1。大量のデータから学習された単一の言語モデルが、様々な言語処理タスクに適用できることが判明しました。実際、この単一モデルは特定のタスク向けに訓練されたモデルよりも優れた性能を発揮しました。
そのモデルは深層ニューラルネットワークでした。今日使用されているモデルほど深くはありませんでした!しかし、研究と産業界に機械学習、特に深層学習がNLPの多くの課題解決策となることを確信させるには十分でした。
それ以来、自然言語処理はモデル主導型アプローチから離れ、ほぼ常にデータ主導型アプローチに基づくようになりました。
従来、主要な言語タスクはモデル構築に関わるものとデコーディングに関わるものの2つのグループに分類できます。
モデルの構築
文字起こし、質問への回答、対話生成、翻訳を行うには、「Je parle Français」が実際にフランス語の文であるかどうかを判断できる必要があります。また、話し言葉と同様に文法規則が常に正確に守られるわけではないため、その判断は確率的なものでなければなりません。文は多かれ少なかれフランス語である可能性があります。これによりシステムは複数の候補文(音声の文字起こしや文の翻訳として)を生成でき、各候補に確率スコアが付与されます。最高スコアの文を採用するか、他の情報源(文の内容も考慮対象となる場合あり)とスコアを組み合わせることができます。
言語モデルはこの処理を行い、その確率は機械学習アルゴリズムから構築されます。当然ながら、データ量が多ければ多いほど良いです。言語モデル構築に十分なデータが存在する言語もあれば、そうでない言語、つまりリソース不足の言語もあります。
翻訳の場合、2つではなく3つのモデルが必要となります。各言語用の言語モデルに加え、翻訳用の別のモデルです。この翻訳モデルは、言語の断片をより良く翻訳する方法を教えてくれます。データが不足している場合、これらのモデルを作成するのは困難です。一般的な言語ペアのモデルは構築しやすいかもしれませんが、頻繁に組み合わされることのない言語(例えばポルトガル語とスロベニア語など)ではそうはいきません。この問題を解決する典型的な方法は、中継言語(通常は英語)を使用し、この中継言語を経由して翻訳することです。つまり、ポルトガル語から英語へ、そして英語からスロベニア語へと翻訳します。しかし、この方法では誤りが蓄積されるため、結果の質が低下します。
デコーディング
デコーディングとは、アルゴリズムが入力シーケンス(信号またはテキスト)を受け取り、モデルを参照しながら判断を下すプロセスであり、その結果、しばしば出力テキストが生成されます。ここにはいくつかのアルゴリズム上の考慮事項があります——多くの場合、文字起こしと翻訳はリアルタイムで行われ、タイムラグを最小化することが重要な課題となります。したがって、人工知能を応用する余地が多くあります。
エンドツーエンド
現在では、これらのコンポーネントを個別に構築し後で組み合わせる手法に代わり、システムが単一のモデルを通じて入力を文字起こし/翻訳/解釈するエンドツーエンドのアプローチが主流となっています。現在、こうしたモデルは深層ニューラルネットワークによって学習されますが、その規模は非常に巨大になり得ます。最新の最大規模モデルであるGPT-3は数億ものパラメータで構成されていると報告されています!

このプロセスの背後にある直観を探ってみましょう。あるデータがあるとします。この生データは何らかの方法でエンコーディング(符号化)できます。しかしエンコーディングは冗長であり、おそらくコストもかかるでしょう。ここでオートエンコーダと呼ばれる特定の機械を構築します(左図参照)。この機械はテキストを受け取り、それを小さなベクトルに圧縮(これがエンコーダー部分)し、その後ベクトルを復元(デコーダー部分)して何らかの形で元のテキストに近いテキストを返すことができます。つまり、この仕組みによって中間ベクトルが二つの望ましい特性——初期テキストの情報を「含む」適度に小さなベクトル——を持つ有意義なものになるというわけです。
未来
近い将来実現する可能性のあるエンドツーエンド処理の一例として、以下のタスクを実行する機能が挙げられます。それは、あなたの話す言語を聞き取り、テキストを書き起こし、あなたが知らない言語へ翻訳し、音声合成システムをあなたの声に合わせて訓練し、新しい文で対応するテキストをあなた自身の声で発話させるものです。スペイン・バレンシア工科大学の研究者らが作成した2つの実例では、話者自身の音声モデルを用いて吹き替えを行っています。
教育への影響
自然言語処理技術の着実な進歩は目覚ましいものです。わずか10年前ならAIが提案する翻訳を笑っていたような明らかな誤訳も、今日では見つけにくくなっています。音声認識技術や文字認識技術も急速に向上しています。
意味論の課題は依然として存在し、テキストの深い理解を必要とする質問に答えることは完全とは言えません。しかし状況は良い方向に向かっています。これは、まだ現実になっていなくても、教師が近い将来に以下の記述のいくつかが実現すると期待できることを意味します!
- 生徒が複雑なテキストを選択し、(AIを使用して)単純化されたバージョンを取得することができます。テキストはさらにパーソナライズされ、生徒が慣れ親しんでいる用語、単語、概念が使用される可能性さえあります。
- 生徒がテキストを検索・複製した後、同じ内容を記述しながらも盗用検出ツールに検知されないテキストを生成できるようになります。
- 世界中の動画が自動吹き替えによりあらゆる言語で視聴可能になります。これにより生徒は自国語で作成された教材だけでなく、異なる文化圏の学習システム向けに設計された教材にも触れる機会を得ます。
<!– - あらゆる主題について書けるツールが登場すれば、作文は過去の課題となるでしょう。
AIが完璧とは程遠いことは明らかであり、専門家は言語が正しくても思考の流れが不自然だと見抜くでしょう。しかし現実を直視しましょう。教育課程において、生徒や学生がそのレベルに到達するまでにどれほどの時間を要するでしょうか?
1 Collobert, Ronan, and Jason Weston. A unified architecture for natural language processing: Deep neural networks with multitask learning. Proceedings of the 25th international conference on Machine learning. 2008. http://machinelearning.org/archive/icml2008/papers/391.pdf. Note: this reference is given for historical reasons. But it is difficult to read!