NEC独自の大規模言語モデル（LLM）開発の裏側に迫る: NECの最先端技術| NEC

2023年9月1日

パラメータ数が少なく、軽量で高性能なNECの大規模言語モデル（LLM）。
前回のインタビューでは、そのコンセプトと特長について研究チームのリーダーに話を伺いました。
詳細はこちら：大規模言語モデル(LLM)を開発
今回は開発に携わったチームメンバーが集合し、技術の詳細だけでなく開発の裏話についても語ってもらいました。

怒涛の1カ月で生み出した高性能LLM

― 前回インタビュー後、正式にプレスリリースもされました。反響はいかがですか。

小山田：お客様からも多くの反応をいただいていますし、先日行われた自然言語処理系で世界最大規模の国際学会ACLでは多くの方が私たちのLLMのことを話題にしてくれていたと聞いています。ありがたいことに、お客様からアカデミア、またエンジニアの方々までたくさんのご反響をいただけている状況です。

― 今回はチームのみなさんが集まってくださいましたが、開発はどれくらい前から進んでいたのでしょうか。

小山田：今年の4月頃からですね。

― 4月ですか！？

秋元：そうです。ゴールデンウィーク前に立ち上がって、急ピッチで進めてきました。

小山田：今年の2月にMeta社が「LLaMA」（Large Language Model Meta AI）というLLMを公開しましたが、3月頃だったか、私がそのモデルを使って半分プライベートでいろいろ遊んでいたんです。しかし、日本語で試してみると、やはりどうしてもうまく性能が発揮されないんですね。精度があまりよろしくないし、日本語を話してくれていても思考の仕方が日本的でなかったりする。その後、気になってLLaMAに関する論文を読み込んでいたのですが、これなら自分たちでもできるのではないかと思い始めました。もともと私やここにいる矢野さんはNEC Data Enrichmentという技術の研究開発に3年前から取り組んでいたのですが、この技術は言語モデルの塊なんです。そのノウハウもあったので、LLMもつくれるのではないかと。そこで実際にメンバにも声をかけてトライしてみるとうまくいきそうだと実感できたので、上層部にAIスパコンの使用許可を得て本格的に開発に乗り出しました。それが4月のことです。AIスパコンを専有できる期間が1カ月間ということもあり、急いで結果を出そうと全員で協力して進めていきました。

秋元：LLMの本番学習にも時間がかかりますし、ゴールデンウィークもあったので実質的な準備期間は2週間ほどでした。その間に関連論文を読み漁り、データも準備していきました。しかし、そんな制限時間のある状況でも小山田さんは一切妥協がなかった。モデルや学習の設計に少しでも曖昧な部分を見つけると、「まだもう少し時間があるから、もう1回比較実験をして最適な設計を見つけよう」と言って、何度も何度も粘るんです。時間はないのに！！プロジェクト開始当初からできるだけ早く学習を開始しようと急かされていた状況だったので、私なんか、心の中では「納期と品質はトレードオフなんだよ！」とぼやいたりしていました(笑) でも結果的には、そのおかげですごく良いものができたと思います。

竹岡：私たちは「AI王〜クイズAI日本一決定戦〜」のときにも当時部分稼働していたAIスパコンを利用していたので、そのときのノウハウやデータがあったのも良かったかもしれません。スムーズに開発を進めることができました。それに、やはりNECのAIスパコンはすごいです。A100 80GBという高性能なGPUを928基も積んでいるという点はもちろんですが、ストレージが高速というのがポイントです。LLM開発にあたっては、データを読み込んで処理を行い、保存するという工程が何度も繰り返されるので、読み書きが遅いと何倍も時間がかかってしまいます。ここをスピーディにできたので、短期間での完成につながりました。

「性能が出ない」と言われていたアーキテクチャをあえて採用

― パラメータ数が少なく、高精度という特長は、なぜ実現できたのでしょうか。

小山田：1つは今回私たちのLLMが採用したアーキテクチャにあります。

秋元：実は、今回私たちが採用したアーキテクチャは、従来のアカデミアの間ではあまり良い性能が出ていないと言われていたものだったんです。しかし、論文を読み漁っていたとき、実はこのアーキテクチャ自体は素晴らしく、きちんと学習すれば高い性能が出せるのではないかと感じて、試行錯誤を重ねていきました。結果的に、期待以上の性能を引き出すことに成功しましたし、現在に至ってこのアーキテクチャが採用している方式が世界的にも再注目されるようになってきたので、ここは先見の明があったかなと思っています。

董：データの準備及び前処理も大きな問題でした。インターネットからは学習に利用できる膨大なデータが取得できますが、当然のことながらノイズになるものも存在します。アフィリエイトサイトやアダルトコンテンツなどがその例です。そういったLLMに見せたくない、生成させたくないコンテンツをうまく排除しながら、いかに学習させていくかというのは大きな問題でした。単純な一般的なフィルタリングのやり方では上手く対応できないので、日本語の特徴を加味して専用の分類器を開発するなどして対応しています。

槇尾：単純にフィルタリングしてキレイなデータだけを集めた結果、逆に性能が落ちてしまったこともありましたよね。

竹岡：ありましたね。残念なことに、LLMの学習のために「良い」文章というのは、世界的にまだよくわかっていないんですよね。整った文章を読ませればいいというわけでもなくて。

秋元：データ量が多ければよいというものでもないですしね。一般的には性能を上げようという時にデータの量が注目されることも多いのですが、今回行った私たちの比較実験では、たとえ量を増やしてもノイジーなデータが多く混ざってしまうと、かえって性能が下がってしまうことが確認できました。

董：そのため、今回はさまざまなバージョンの前処理をかけたデータを準備しながら、比較実験を繰り返していきました。これによって、データ前処理の度合いやデータ内容の配合についてのノウハウは、かなり蓄積できたと思います。この過程を経て、最も性能を出すことに成功したものが、今回のLLMになります。

― 性能の良し悪しはどう評価しているのですか？

矢野：LLMの性能は主に、文書分類や質問応答などの自然言語処理タスクでの性能評価と、質問に対するLLMの回答が人間にとってどれくらい「自然な受け答えか」「役に立つか」「毒性がないか」という評価の2段階評価を行っています。例えば文書の分類などの精度を定量的に測定する指標はありますが、それだけでの性能評価は不十分です。やはり、人間の目でさまざまな観点から評価しなければ、本当に実用的なLLMかどうかはわかりません。

槇尾：第1フェーズとして定量的な評価を実行して、第2フェーズとして人間の目で評価を入れる。モデルが出来上がったら、すぐにその工程に投入できるように準備をしつつ、性能評価のサイクルをできるだけ効率的に回せるような工夫をすることで、学習をスムーズに実行していきました。

矢野：計算機を有効活用するために、かなりの速度で学習を回していたので、なおさら効率的な評価が不可欠です。特に第2フェーズの人間による評価は、人間の手間がかかります。この評価を代替する自動評価手法については様々な方法が論文レベルで議論されていて研究の余地がありますが、今回のLLM開発を経て効率的な評価方法の知見が得られたと思っています。

進化の余地はまだまだある

― 今後、LLMを通じてどんなことを実現していきたいですか。

矢野：やはりLLMにどういうデータをどういう方法で学習させると、どういう能力や知識を獲得/喪失するのかというメカニズムに迫っていきたいですね。実際、LLMが何をどのように学習しているかということは、まだまだ解明できていません。この学習過程のブラックボックスに迫って、深く理解できればLLMの性能向上にも大きく貢献できるはずです。

槇尾：私はLLMで日常のあらゆる面倒なことを自動化していきたいと考えています。しかし、現在の高性能なLLMのほとんどは英語がベースで、日本料理のレシピを尋ねると「セロリを入れる」などの調子外れな回答が出てくることがあります。日本国内で必要になる情報を上手く扱えるようなLLMを生み出して、作業を効率化することが私の一番の関心です。

董：面倒な作業を自動化したいというのは、私も同じです。私はデータベースが専門なので、面倒なデータ処理の作業をLLMに任せられるように尽力してきたいです。もちろん、LLM単独では難しいかもしれないので、人間がツールを使えるように、既存のツールの使い方も合わせてLLMにインプットするかたちで実現できないかと考えているところです。

竹岡：私が実現できないかと考えているのは、専門的な文章を読むときのサポートですね。行政文書や契約書など、理解するのが難しい文章は私たちの身の回りに溢れています。これに対し、「ここだけは気をつけて読んだ方がいいよ」と促してくれたり、質問に対して「ここを読めばいいよ」と答えてくれたりというインタラクティブな仕組みがつくれたらいいですね。海外から来た日本語が不得意な人に対しては、英語で質問すれば、こういうことが書いてあるよと英語で返してくれるようにできれば、面白いかもしれません。

秋元：ちょっとネタっぽく聞こえるかもしれませんが、私はLLMで「異世界転生」を実現できないかと考えています。何か自分でフィクションの世界を作ろうとするとき、従来であれば私たち人間が細かい設定や人物などを作り込まなければならなかったと思います。ただ、自分で設定を作り込んだ世界は、自分ではもう隅々までわかってしまっているので面白くありませんよね。これに対し、膨大な知識を持っているLLMを使えば、私たちがあえて作りこんでいなかった部分の設定を勝手に補ってくれて、思いがけない世界を出力してくれるようにできるはずです。いわばシミュレーションゲームやTRPGのようなものが、自分の設定でポンと出てくるようなイメージですね。私たちはその世界に入り込んで、LLMがつくり出した人物と対話していく。

小山田：それは面白いね。実は私も同じようなことができるなと考えていたんだよね。というのも、LLMに学習させるデータは、時間を限定することもできるわけです。いまはビジネス用途が目的なので当たり前のように現在のインターネットのデータなどを学習させていますが、例えば2000年前の文書だけを学習させれば、2000年前の人とインタラクティブに会話することができる可能性があるわけです。その時代の価値観を投影した過去の人物とチャットするというのも、夢ではないかもしれないですよね。

― ありがとうございます。最後にチームとしての目標を聞かせてください。

小山田：今回発表したLLMについては、実用化のなかでさらに推論速度を速くしたり、精度をはじめとする応答の品質を上げていったりと、より完成度を高めている最中です。チーム全員、引き続き全力で取り組んでいきたいと考えています。また、今回発表したLLMと並行して、他にもさまざまなバリエーションのLLM開発も進めています。こちらも近いうちに皆さんに発表できるように研究開発をさらに加速させていますので、ぜひご期待ください。