生成AIの「歯車」：その仕組みをのぞいてみよう

Colin de la Higuera; Jotsna Iyer

37 生成AIの「歯車」：その仕組みをのぞいてみよう

ここ最近、ChatGPT、Bard、LLaMA2-chatといった大規模言語モデルを活用した「自然言語対話システム」が、短期間で爆発的な人気を博しました。その結果、さまざまな側面において、今もなお決着のつかない熱い議論が巻き起こっています。比較的シンプルな数学の方程式によって制御されている計算システムが、なぜ多くの人が「知的」と呼ぶような振る舞いを生み出すことができるのか。それを問い直してみることは、間違いなく魅力的な体験です。

しかし、この章では「大規模言語モデル（LLM）の振る舞いは、私たちが『知的』と定義できるものなのか？」「人間本来の知性とは一体何なのか？」「創造性をどう定義すればいいのか？」といった問いに対して、直接的な答えを出そうとはしません。これらは非常に興味深いテーマではありますが、正しく答えるためには、より踏み込んだ深い調査が必要になるからです。

その代わりに、ここでは専門家ではない皆さんにも分かりやすいように、大規模な言語モデルが機能する、その背景にある「メカニズム」の全体像をお伝えしようと思います。これらのメカニズムに対する認識を深めることこそが、AIの持つ可能性やリスクを理解し、特に教育の場において「正しい使い方」を促進することにつながるからです。

まず、払拭すべきよくある誤解として、「これらのシステムは、基本的には『問いと答え』のペアで構成された巨大なデータベースに過ぎない」というものがあります。この間違いは、長年にわたって定着してきた従来のチャットボット・システムの構築手法から連想されたものです（これについては、関連する章をぜひ読んでみてください）。同時に、こうした考え方は、大規模言語モデル（LLM）の持つ「生成的（ジェネレーティブ）」という特性を正当に評価しているとは言えません。

言語モデルとは、与えられた「文脈（コンテキスト）」に応じて、あるテキストの断片（通常は単語）が出現する確率を割り当てる統計モデルのことです。この文脈は通常、次に来ると予想される単語の「前にある単語の並び」によって定義されます。

かつては純粋に統計的なアプローチ（例えばマルコフ連鎖やn-gramモデルと呼ばれるもの）で構築されていた言語モデルに、時を経て「ニューラルネットワーク」から構築されたモデルが加わりました¹。これらは、ネットワークの構造そのものにおいても、その規模においても、大きな進化を遂げてきました。

「大規模言語モデル（LLM）」という名前がついているのは、膨大なデータで学習させた、とてつもなく大きなニューラルネットワークに基づいているからなのです。

この「自ら生み出す（生成的）」という側面と、その本質が「熟練した直感」に近い性質を持っているがゆえに、大規模言語モデル（LLM）がユーザーの入力に対してどう反応するかを正確に予測することは困難です。こうした特性があるからこそ、このシステムが嘘や不正確な文章を作り出してしまうのではないか、という根強い不信感にもつながっています。

つまり、この「生成する」という特徴は、機械が文章を理解して作り出す能力における「偉大な技術的達成」であると同時に、こうしたテクノロジーが抱える「主要な危険性」の一つでもあるのです。

それでも、こうしたシステムの中身を解き明かしてみることにしましょう。これまでのあらゆる技術革命と同じように、今回の突破口の背後にも多くの要因があります。ここではあえてシンプルに整理して、主な要因をいくつか挙げてみます。さらに詳しく学びたい方のために、後で深く研究する際のガイドとなる参考文献も示しておきますね。

ネットワークの規模： これは、ネットワーク内にある「学習可能なパラメーター（変数）」の数で測られます。大規模言語モデルは、驚くほど膨大な数の「ノード（節）」と「層（レイヤー）」で構成された深層ニューラルネットワークです。その大きさの目安を言うと、この分野の専門家は、パラメーターの数が100億を超えると言語モデルを「大規模（ラージ）」と呼びます。具体的な例を挙げると、GPT-3モデルは1,500億個、LLaMA v2の最大バージョンは約700億個ものパラメーターを持っています。
ネットワークの構造（アーキテクチャ）： AIが成功をおさめた理由は、規模だけではありません。ニューラルネットワークのノードや各層が「どのように相互接続されているか」も極めて重要です。ここでもあえて簡略化して説明すると、これまでのモデルよりも劇的に効率が良くなった背景には、「トランスフォーマー（Transformer）」と呼ばれるネットワーク構造と、「アテンション（注意）」というメカニズムという、主要な構造上のイノベーションがあります。
学習に利用できるデータ量： 膨大なデータが手に入ること自体、こうしたモデルの学習には欠かせない要素であることは間違いありません。しかし実は、大量のデータが存在すること自体は何年も前から分かっていたことであり、こうしたモデルが登場するずっと前からの前提でした。したがって、本当の革新的な要因は、データの量そのものよりも、「学習テクニック」や、生データから学習用のデータセットを作り上げるまでの「選択と準備のプロセス」にあります。これは「自己教師あり学習（self-supervised learning）」と呼ばれています。
現代の計算能力（コンピューティング・パワー）： 当然のことながら、コンピュータの計算能力が飛躍的に向上したことが、これほど巨大な規模のネットワークを実現させるための決定的な役割を果たしました。これまでの経験則から、ネットワークの規模を拡大させること（スケーリング）こそが、AIに「知的な振る舞い」を芽生えさせるために不可欠な要素の一つであることが分かっています。
チューニング（調整）のメカニズム： もう一つ、意外と見落とされがちなのが、モデル構築の最終ステップにあたる「調整」の仕組みです。具体的には、「人間からのフィードバックを用いた強化学習（RLHF）」や「ランキング（順位付け）」といった手法を指します。これらは、モデルの個性を形作り、ユーザーの意図により沿った回答を出せるようにするために使われます。さらにこれに加えて、特定のタスクをこなす能力を高めたり専門化させたりする「ファイン・チューニング（微調整）」のプロセスも、AIの振る舞いを洗練させるために欠かせません。
安全性のためのパイプライン： 深層学習（ディープラーニング）モデルそのものとは別に、システムの弱点を補うための専用技術も組み込まれています。これは、不適切な入力に対してシステムが不安定になるのを防いだり、たとえ安全な入力であっても不適切な回答を返してしまわないように制限をかけたりするためのものです。

さて、大規模言語モデル（LLM）を形作るさまざまな要因が見えてきたところで、あとは実際に私たちの教育現場でその可能性を試してみるだけです。

ぜひ、ChatGPTやBard（現在のGemini）に話しかけてみてください。新しい演習問題を作ってもらったり、生徒一人ひとりのニーズに合わせて内容を調整したり、関連資料を含めた授業案を練り直したりと、できることはたくさんあります。それをどう活かせるかは、皆さんのクリエイティビティと、こうしたシステムと「どう対話するか」の習熟度にかかっているのです。

備考： ここで挙げたそれぞれの要因については、本来ならもっと詳しく掘り下げて説明する必要があります。興味のある方のために、さらに学びを深めるための参考文献リストを用意しました。

¹Bengio, Y., Ducharme, R., & Vincent, P., A neural probabilistic language model. Advances in neural information processing systems, 13, 2000.

² Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I., Attention is all you need, Advances in neural information processing systems, 30, 2017.

ライセンス

クリエイティブ・コモンズ表示 4.0 国際ライセンスのアイコン

ライセンス

この本を共有