大規模言語モデル関連本紹介

ここでは、chat GPTに代表される大規模言語モデル(Large Language Model)に関連した本を紹介します。良さげな本を発見しましたら、随時更新して行きたいと思います。

大規模言語モデルは新たな知能か – ChatGPTが変えた世界

難易度：★★☆☆☆

この本は、日本を代表するAIユニコーン企業であるPFN(Preferred Networks)の共同創業者である岡野原さんにより執筆されました。

余談ですが、岡野原さんは、PFNの前身であるPFIの時から機械学習・深層学習に関する情報をネット上でいろんな形で配信されており、その内容もとてもわかりやすく、個人的にいつも勉強させていただいておりました。

そんな方の本について書くのは若干恐縮なのですが、紹介させていただきますと
この本はタイトル通りchatGPTに代表される大規模言語モデル(Large Language Model:LLM)について社会的影響から実装技術の概要まで包括的に書かれた本です。

そのためこの分野について知りたいと思った方、これから仕事で使おうと考えている方(Ex ITコンサルタント)には是非手にとって読んで頂きたいと思っております。

内容は、大規模言語モデルがどのような業務に影響するのか（Ex 文書の校正、翻訳、要約、プログラミングの補助、情報検索）から始まり、大規模言語モデルがもたらすリスクについて記載されています。

リスクは、主に大規模言語モデルが間違ったことを答えてしまう(これを専門用語でハルシネーション(Hallucination)=幻覚といいます)ことによる影響(Ex 誤った情報の拡散される、本人特定が難しくなる)について言及されています。

その後にこの分野（自然言語処理）がどのように発展してきたのかが続き、深層学習アーキテクチャの概要、そして現在の大規模言語モデルのアーキテクチャの話と続いていきます。

このあたりは、数式を使わないようかなり平易にかかれていますが、ひょっとすると初学者にはちょっと難しい部分もあるかもしれません。

ちょこちょこ記載されているコラムのとても興味深く、個人的には「圧縮器としての言語モデル」がとても印象的でした。

贅沢を言えば、~~リファレンスがあると嬉しいなと思ったりしましたが~~(リファレンスありました！）、とても勉強になりました。

目次(本書より抜粋)

難易度：★★★★☆

タイトルの通り、機械学習エンジニアやデータ・サイエンティストの方向けにTransformerの実装について書かれた本です。

Transformerは、現在の大規模言語モデルを支えているアーキテクチャです。Transformerがもたらしたべき乗則(データ量、モデルサイズ、計算量をつぎ込めばつぎ込むほどべき乗に精度が上がる)が、大規模言語モデルの拡大化を支えていると行っても過言ではないと思います。

内容は、Transformerのアーキテクチャの実装から説明があり、アプリケーション化の仕方、動かす上で必要になるモデルの圧縮技術、一からのモデルの作り方などについて記載されています。

そのため大規模言語モデルのアーキテクチャを理解し、モデルを自前で用意して、アプリケーションを作りたいという方にはオススメな一冊となっております。

逆に既存の大規模言語モデルのサービス(Ex chatGPT)を使ってアプリケーションを作ろうとしている方にはちょっとtoo muchな内容かもしれません。