「大規模言語モデルは新たな知能か」；岡野原大輔著　読書感想

本日紹介するのは、岡野原大輔著「大規模言語モデルは新たな知能か」。
著者の岡野原氏は日本が誇る天才集団、Preferred Networksの共同創業者として著名である。学生時代には言語モデルを研究していたらしく、まさに大規模言語モデルを語るのにふさわしい人物だ。
本書は130ページ程度と薄めで、かつ説明レベルは一般向けである。しかしその情報密度は驚くほど濃い。特に後半の５章６章あたりの大規模言語モデルの仕組みに踏み込む部分は読んでいて情報に酔ってしまった。本書は、ChatGPTのハウツーからは一歩離れ、ストイックに大規模言語モデルの原理を考察したい人にお勧めである。

大規模言語モデルは事前にロールプレイを指示したり回答フォーマットを例示したりすることで振る舞いを制御できることはよく知られているが、その仕組みについてはずっと疑問に思っていた。
本書によると、注意機構の数式を変形すると、重みパラメータを一時的に変えているとみなすことができるそうだ。つまり、プロンプトによる指示や、自分自身が生成した応答に合わせて、モデルをその場で学習しているようなのだ。具体的には、注意機構は過去の文脈の予測誤差に応じた勾配降下法と同じ効果をシミュレーションして、次の単語を予測しているらしい。このような内容が、メタ学習や分布外汎化といったキーワードとともに説明されている。
なおこれに関連して一つ補足すると、注意機構はあくまでもフィードフォワード処理であるため、RNNのように本当の意味で過去の文脈を記憶する機能があるわけではない。GPTに記憶を持たせるには、プロンプトに加えてユーザーの入力と言語モデルの出力の履歴も入力しなければならない。つまり、言語モデル自体はフィードフォワード処理だが、チャットシステム全体でRNNに似た構造を作っていることになる。このあたりは自分でOpenAIのAPIを直接触ることで理解した。

また、LLMはオッカムの剃刀の原則に反してパラメータ数がそのまま性能に直結するというスケーリング則によって機械学習業過の常識を覆したことでも有名である。
大規模言語モデルが持つ高い汎化性能については、２つの仮説が紹介されている。まず宝くじ仮説は、ニューラルネットワークには初期値の時点でタスクに対して最適な部分ネットワークが隠れており、学習とはその部分ネットワークを掘り起こす作業であるというものだ。モデルが大きいほどそのような部分ネットワークが存在する確率が大きくなるため、モデルの規模が大きくなるほど性能が良くなるというのだ。この仮説は、「モデルの規模が大きくなるとある時点で突然タスクが上達する」という創発現象にも関わっているらしい。また、「平坦な最小解仮説」は、大きなモデルを勾配法で最適化すると、平坦な最小解という状態に到達する確率が高いというものだ。平坦な最小解とは、多少パラメータをずらしてもパフォーマンスが変わらないような解であり、この状態はモデルの複雑度が小さいことが理論的に分かっているらしい*1。

これ以外には、トランスフォーマーの注意機構が短期記憶に、全結合ブロックが長期記憶に相当するのではないかという仮説が非常に示唆的で感銘を受けた。ここに書けるほど咀嚼できていないので、皆さんにはぜひ自分で読んでみて欲しい。

なお、ChatGPT登場以降、様々な勉強会や討論会が行われている。私は以下のような動画を見て勉強中である。
www.jdla.org
www.t.u-tokyo.ac.jp

また、「JDLA Generative AI Test 2023」も受験し、無事合格している。

ChatGPTが登場して一年がたった。オープンソースLLMやLangChainなどのライブラリの整備が進み、今や生成AI戦国時代となっている。私自身は生成AIに関してはユーザーの立場ではあるが、今後も世の中に置いて行かれないよう、AIの利活用や情報収集、勉強を続けていきたい。