サイト内の現在位置

大規模言語モデル(LLM)を開発

NECの最先端技術-世界トップクラスの高性能な日本語処理を実現-

2023年7月6日

大規模言語モデル(LLM)の研究・開発が活気づいています。世界中を見渡しても、さまざまなフロントランナーが新たなLLMを開発し始めています。そのようななか、NECでもLLMを開発することに成功しました。しかし、なぜNECがLLMの開発に乗り出したのか。そして、なぜ開発できたのか。研究者に詳しく話を聞きました。

LLMはあらゆる生成AIの核

小山田 昌史
データサイエンスラボラトリー
主幹研究員・ディレクター
小山田 昌史

― まず、改めてLLMについてわかりやすく教えてください。

LLMとは大量のテキストデータを学習して構成されたAIモデルのことです。従来の言語処理技術とは一線を画し、高精度にテキストの内容をとらえ、質問に答えたりすることができます。もともとは、ここ15年ほど研究が続けられてきた深層学習という技術がベースになっています。

深層学習では、データをAIに学習させることで、さまざまな解析・分析ができます。NECが得意とする顔認証などの画像認識技術もその一例です。しかし、2018年以前までの深層学習は課題がありました。画像データに対して、これは犬である、これは鳥である、というように人間がわざわざデータに情報を付与してAIに教え込ませなければならないという点です。人間の労力に依存してしまうので、どうしてもAIの精度向上におけるボトルネックとなっていました。

これに対し、2018年に「自己教師あり学習(Self-Supervised Learning)」という技術が登場します。この技術では、人間がわざわざデータに情報を付与せずとも、画像が何を表しているか、文章にはどのようなトピックが含まれているのかということをAIが自分で学習することができます。これにより、大量のデータと計算性能が高いサーバを用意すれば、AIをどんどん賢くできるという状況になったのです。

その結果、Google社からはLLMの礎となるAIモデル「Transformer」が生まれ、その1年後にはTransformerにもとづいてOpenAI社が「GPT」(Generative Pretrained Transformer、注)を開発しました。現在のChatGPTにつながる技術です。当時は文章の書き出しだけ入力すれば残りを作成してくれるというものでしたが、その後飛躍的な進化を遂げて、文章の要約や「NECをテーマにした面白い歌詞をつくって」などのような複雑なオーダーにも応えられようになり、世間を大きく騒がせるような存在になったことは皆さんも知るところだと思います。

注:GPTはOpenAI社の商標です。


― 画像生成AIとあわせて、大きな話題になりました。

そうですね。ただし「かしこく、面白いことができる」というだけで、これだけ市場が活気を呈しているわけではありません。重要なことは、文字列はあらゆるプロトコルの中心にあるという点です。

たとえば、プログラミングのソースコードも文字列の情報です。実際、Pythonなどの言語でプログラミングを書くように指示すれば、与えた指示通りのほぼ完璧なソースコードを書いてくれます。逆に、ソースコードを入力して何を意味しているのかと問えば、一体そのコードが何をしようとしているのかをまるでエンジニアのように答えることも可能です。

また、画像データも文字列を通じてリンクさせることができます。インターネット上には大量の画像データが存在していますが、その画像の近くには関連する文字列が掲載されていることがほとんどです。これを利用すれば、画像に写っているものが何であるかAIに学習させることが可能です。LLMが蓄えた文字列と画像認識を連携させることができるのです。画像生成AIとも通じる技術ですね。

さらに発展的なことを言えば、LLMはロボットの知識として活用することも可能です。たとえばロボットの前にグラスがあったとします。ロボットに水の入ったグラスをもってきてほしいとき、従来であれば人間があらかじめ「グラスを持つ」「グラスをウォーターサーバーに持っていく」「グラスに水を注ぐ」などの動作の順番やロボットの制御方法を設定する必要がありました。LLMと連携すれば「水が飲みたい」とロボットに質問するだけで、状況に合わせた常識的な動作の順番や「グラスが割れないように優しく持つ」などといったロボットの制御方法を回答してくれます。人間がこれまでに培ってきた膨大で有益な情報が、LLMには集約されていますので、これを活用することでロボットの制御は飛躍的に効率化できるはずです。

このように、LLMはさまざまな生成AIやロボット制御の軸となる汎用的で革新的な技術なのです。

モデルサイズを抑えて高性能、実用的なLLMに

― なぜNECがLLM開発に参入したのでしょうか?

2023年の2月にはMeta社が「LLaMA」(Large Language Model Meta AI)と呼ばれるアカデミア用途で自由に使えるオープンなLLMを公開したことで開発者コミュニティが活気づき、世界ではいま爆発的にLLM技術が進歩しています。しかし、LLaMAは英語に特化したモデルのため、日本語の処理や日本文化の理解などは得意ではありません。日本語で利用可能なモデルは、英語圏の数十分の1のサイズにとどまっている現状があります。今後のAIや普及を考えると、日本が自ら技術を進展させる力を持つことは非常に重要であると考えました。

また、NECは国内では珍しいAI研究用スーパーコンピュータを保有しています。CPUを使った汎用的な数値演算やシミュレーションを行うスーパーコンピュータとは異なり、深層学習に適した大量の行列演算を行うことができるGPUをベースにした国内企業で最大(※)のスーパーコンピュータです。数年前からNECが多くのリソースを投入して準備を進めてきたもので、今年の3月に運用を開始しました。このリソースを活用することができれば、日本語でも精度の高いLLMを実現できると考えたことも一つの理由です。




― 世界規模のプラットフォーマーがLLMの開発に乗り出すなかで、NECのLLMはどのようなポジションをめざすのでしょうか?

LLMの精度は、「パラメータ数」と「学習データ量」によって変わっていきます。

「パラメータ数」とは、人間の脳でいうシナプスの数のようなものです。近年では、これをいかに増やして性能を上げるかということに世界中が取り組んできました。GPTでいえば、初代から現在のモデルまでの間におよそ1500倍も増えています。しかし、パラメータ数が増えるほど推論には時間がかかり、高価なGPUも必要になります。仮にパラメータサイズを10倍に増やせば、そのぶん10倍のGPUが必要になり、単純にコストも10倍に膨れ上がります。加えて、その運用には膨大な電気代などの変動費もついて回ることになるのです。

そこで、NECは高い推論能力と運用のしやすさを両立することを目指し、パラメータ数を無尽蔵に増やすのではなく、「学習データ量」を従来モデルと比較して圧倒的に増やす、というアプローチをとりました。

データ量というと、大規模なプラットフォーマーの方が有利ではないかと思うかもしれませんが、そんなことはありません。テキストデータにかぎっては、WEB上にオープンなデータが大量にありますし、青空文庫などのデータを活用することもできます。データ量では同じ土俵に立っているのです。

しかし、ただデータを集めれば精度が出るというわけではありません。データの種類の配分をウィスキーのブレンドのように試行錯誤を繰り返して突き詰めたり、「AI王~クイズAI日本一決定戦~」2連覇で培ったノウハウを活かして高品質なテキストを獲得することにより、中規模のモデルサイズ(日本語モデルとしては最大級※)にも関わらず、我々も驚くくらいの性能を出すことに成功しました。

また、データの量を増やすということは、それだけ学習に必要な計算リソースが増えるということになります。一般には考えられない規模の学習を現実的な期間で完了することができたのは、さきほどお話ししたAIスパコンのおかげです。

このように、今回のLLMは実用的なモデルサイズで実現した高精度なLLMという独自のポジションをとっています。日本語に強いことも、もちろんです。

このLLMをもとに、現在さまざまな運用を検討中です。一部をアカデミアやソフトウェアエンジニアの方々などに向けてオープンにすることもあるかもしれませんし、機密情報を抱えるお客様に対してオンプレで活用できるシステムへチューンアップしていくこともできるでしょう。モデルサイズを抑えているぶん、専用サーバも現実的なコストにおさめることができます。NECならではの「信頼できるAI」の提供をめざし、引き続き研究を進めていきます。

データサイエンスラボラトリー
上段左から、小山田さん、秋元さん、竹岡さん
下段左から、董さん、槇尾さん、矢野さん

今回のLLM開発メンバ。「AIスパコンを使って開発を行った1カ月間は、毎日が文化祭前夜のようでした。通常の業務もあるなか、皆が情熱的に楽しみながら頑張ってくれました。感謝しかありません。」(小山田)
後日、開発メンバのインタビュー特集も掲載予定です。

第2弾 LLM開発の裏側をチームメンバーにインタビュー

こちらからご覧ください


LLMの開発に欠かせなかったというNECのAIスパコン。いったいどのようなものなのか。そして、どのような可能性があるのか。AIスパコンの開発責任者にも、詳しく話を聞いてみました。

生成AIを自前で構築可能に

北野 貴稔
グローバルイノベーション戦略統括部
ディレクター
北野 貴稔

― NECが保有するAIスパコンについて教えてください。

NECは2023年3月に国内企業で最大(※)のAIスパコンを構築し、稼働を開始しました。AIスパコンとは、AIの学習プロセスを効率化する超高速計算システムです。AI構築の時間を劇的に短縮することができます。

代表的なLLMのベースとなっている言語モデルでは、GPU1基でAIに学習させようとすると、およそ355年もの時間が必要なものがあります。いまや生成AIのような大規模な先端AIの研究開発のためには、AIスパコンの存在が不可欠なのです。

今回リリースしたNECのLLMも、NECのAIスパコンに搭載された512基のGPUを用いて学習を行いました。AIスパコンを開発・保有することは、自社で先端の生成AIを創り出せる力をもつということと同義です。これは、研究者やパートナー、そしてお客様にとっても、非常に意義のあることだと考えています。

生成AIで未来を創り出す

― AIスパコン開発の今後の方針を教えてください。

人間は、言語だけでなく画像や音声も使って実世界で起こるさまざまな事象をモデル化し、未来予測に基づいて最適なアクション・解決策を考えるという意思決定を行うことができます。これは、私たちがふだん意識せずに行っている非常に高度なアクションですが、その裏には生まれて数十年かけて学んだ知識が存在しています。

このような高度な意思決定を行う人間の判断を支えるAIをつくるためには、人間と同様に大量の知識を学ばせなくてはなりません。しかし、言語能力にあたる一つのAIの構築でさえ長期間の学習がかかるわけですから、画像や音声などを含めたAIを構築するためには、さらに膨大な計算能力が必要となるはずです。

デジタル革命の中心はAIであり、大規模な計算能力は競争力の源泉になると考えています。だからこそ、今後もさらに計算能力を拡大させていくつもりです。世界でもトップレベルにあるNECの優れたAI研究者の能力を大きくスケールアウトし、先端の生成AIを創りつづけることで、AIによる新たな社会価値の創造を行っていきたいと考えています。

LLMにはGPTをはじめとしたさまざまなモデルが存在していますが、NECのLLMには①日本語対応 ②モデルサイズを抑えて実用的 という特長があります。また、NECが国内企業で最大のAI研究用スーパーコンピュータを持っていることもポイントです。

モデルサイズは中規模(国内では最大級 ※)に抑えていますが、そのぶん学習データの配分や検索機能の搭載で学習効率を最大化しようと努めており、高い性能を発揮することが可能です。モデルサイズを抑えているぶん、機密情報を扱う環境におけるオンプレでの導入も可能になると考えています。

  • 2023年6月末現在 NEC調べ
  • 本ページに掲載されている情報は、掲載時の情報です。

お問い合わせ