この記事では、Google Researchチームが発表した論文「大規模言語モデルにおける新たな現象の特性評価」について解説します。この論文では、大規模言語モデルに現れる新たな能力「新たな能力」について議論されています。これらの能力は、小規模モデルには存在しないが、大規模モデルになると現れるものです。また、言語モデルの規模がそのパフォーマンスにどのように影響するか、例えば言語モデルの困惑度や複数桁の加算など、さまざまなタスクにおけるパフォーマンスについても探求されています。
論文 Characterizing Emergent Phenomena in Large Language Models(大規模言語モデルにおける新たな現象の特性評価)
自然言語処理(NLP)の分野は、大量のテキストデータに基づいて訓練された言語モデルによって革新されています。言語モデルの規模を拡大することで、多くの場合、下流のNLPタスクにおけるパフォーマンスとサンプル効率が向上します。大規模な言語モデルのパフォーマンスは、しばしば小規模モデルのパフォーマンスのトレンドを外挿することで予測できます。例えば、言語モデルの困惑度に対する規模の影響は、7つのオーダー・オブ・マグニチュード以上にわたって経験的に示されています。
一方で、特定の他のタスクに対するパフォーマンスは予測可能な方法で改善されません。例えば、GPT-3の論文では、言語モデルが複数桁の加算を行う能力が、100Mから13Bのパラメータを持つモデルに対してはスケーリング曲線がフラット(ほぼランダムなパフォーマンス)であり、その点でパフォーマンスが大幅に跳ね上がることが示されました。NLPの研究とアプリケーションで言語モデルの使用が増えていることを考えると、これらのような能力をよりよく理解することが重要です。
「大規模言語モデルの新たな能力」では、最近、Machine Learning Research(TMLR)で発表された論文で、新たな能力の現象について議論しています。これらの能力は、小規模モデルには存在しないが、大規模モデルには存在する能力と定義しています。具体的には、言語モデルのパフォーマンスを言語モデルの規模(総浮動小数点演算(FLOPs)または言語モデルの訓練に使用された計算量を測定)の関数として分析することで、新たな能力を研究しています。しかし、データセットのサイズやモデルパラメータの数など、他の変数の関数としての新たな能力も探求しています(詳細は論文を参照)。全体として、言語モデルをスケーリングアップすることで生じる新たな能力の例を数十例提示しています。このような新たな能力の存在は、さらなるスケーリングが可能になると、言語モデルの能力範囲がさらに拡大する可能性があるという問いを提起します。
大規模言語モデルにおける新たな能力の特性評価は、このような現象を理解し、未来のモデルの能力に及ぼす可能性のある影響を理解するための第一歩です。なぜスケーリングが新たな能力を解き放つのか?計算資源が高価であるため、新たな能力をスケーリングを増やすことなく解き放つ他の方法(例えば、より良いモデルのアーキテクチャや訓練技術)はありますか?特定の能力が現れると、言語モデルの新たな実世界のアプリケーションが解き放たれる可能性がありますか?スケーリングから生じる新たな行動を含む、言語モデルの行動を分析し理解することは、NLPの分野が成長し続ける中で重要な研究課題です。