サイト内の現在位置

従来の半分のデータ量でも高精度なディープラーニングを実現 少データ学習技術

NECの最先端技術

2019年8月19日

従来の半分のデータ量でも高精度なディープラーニングを実現 少データ学習技術

ディ-プラーニングの活用促進に大きな効果があると期待されている少データ学習技術。この技術が求められる背景と特長について、研究者に詳しく話を聞きました。

ディープラーニング活用のボトルネックとなってきた
データ量不足を大幅軽減

バイオメトリクス研究所
主席研究員
理学博士
佐藤 敦

― 少データ学習技術とは、どのような技術なのでしょうか?

世界ではいま、ディープラーニング(深層学習)が注目され、さまざまなシーンでの活用が進んでいます。しかし、ディープラーニングによって十分な効果や精度を出すためには、膨大な量のデータが必要です。私たちNECも実際にお客様のもとへ足を運びますが、このデータ量がボトルネックになって導入が難しいという場面に数多く直面してきました。しっかりとした物理モデルがあり、高精度でのシミュレーションができる環境であれば学習に使えるデータを増やすことができますが、実際のビジネスにおいてはそうしたモデルは存在しないことの方が多いものです。たとえば、工場での製品検査にディープラーニングを組み込もうとする場合を考えてみてください。仮に良品のデータは十分な量が集められたとしても、一般的に不良品のデータ量は圧倒的に少なく、学習のために必要なデータは不足してしまいます。かといって、さまざまな要因から生じる不良品のデータを、シミュレーションする物理モデルで作るのは非常に困難です。いかに少ないデータでも高精度な学習を実現できるか。これは、ここ数年間、世界中の研究者によって特に熱心に取り組まれてきた研究課題でした。
今回私たちが開発した少データ学習技術は、こうした課題に対応した技術です。従来の半分程度のデータ量でも精度を落とさず学習できることを確認しています。これまでにも世界では「データ拡張」や「敵対的サンプル生成」などの手法が研究されてきましたが、今回の技術はそれらとも異なるアプローチをとり、より効率的な学習ができるように設計されています。

中間層に注目した独自アプローチで、
精度に貢献するデータを効率的に生成

― どのような仕組みになっているのでしょうか?

具体的には、ディープラーニングの深い層構造(ディ-プニューラルネットワーク)の特性を生かし、中間層から人工的にデータを生成するという方法を開発しました。ディ-プニューラルネットワークでは、入力層から出力層へ進むに従って、データが意味のある記号(シンボル)へ集約していくという特性があります。たとえば文字認識で言うならば、入力層で集められた「4」「9」などの大量のデータは、その時点ではただの白黒の画像パターンです。同じ記号であっても、システム上ではまだ同じものだとは認識されず、個別のデータとして分布しています。これが出力層まで学習を進めていくに従って、次第にさまざまなデータが集約していき、このパターンは「4」、このパターンは「9」、という記号として、まとまって認識されるようになるのです。
こうしたディ-プニューラルネットワークのなかで、従来の「データ拡張」や「敵対的サンプル」では、入力層でのデータに変化を与えてデータ拡張を図るというアプローチをとっていました。しかし、この方法では精度の向上につながるデータが生成されるとは限りません。意味のあるデータではないため、実在しないデータや精度に貢献しないデータが生まれやすいからです。たとえば「4」と「9」が重なったようなデータや無意味なノイズが加えられたデータは実際には存在しにくいですし、疑似的に回転を加えたり大きさを変えたりするくらいでは元から存在しているデータと大した差は生まれにくいので、精度にはあまり貢献しません。
これに対し、中間層で拡張データを生成ができれば、私たちが認識する「4」や「9」などの意味を持ったシンボルに近いところでデータがつくられるので、より意味のあるデータをつくることができます。さらに、ネットワークの出力が正解から遠のくように、つまり認識が難しくなるようにデータをつくります。このように、意味を持ち、かつ認識が難しいデータを数多く生成できるということが、精度の向上に大きく貢献するのです。この技術を用いて、手書き文字認識と物体認識の実験において従来の半分程度のデータ量でも精度を落とさず学習できることを確認できました。
本技術についてまとめた論文は、2019年7月に開催されたニューラルネットワークの国際会議 IJCNNで発表いたしました。

画像データでも音声データでも、データの種類によらず汎用的に活用可能

― 文字認識や画像認識に対して有効な技術なのでしょうか?

確かに、実験では手書き数字認識と、一般物体認識において有効性を確認しています。しかし、本技術は中間層での出力に変化を与えるように設計しているので、入力するデータの種類によらず汎用的に活用できます。たとえば、画像ではなく、音声データであろうとも同様のシステムでデータを増やすことが可能です。
従来のように入力層のデータを拡張するというアプローチでは、データの種類に応じて、そのドメインの専門家がどのようにデータを増やすかということから設計していく必要がありました。しかし、本技術はデータそのものに変化を与えるわけではありません。ネットワークの内部でデータを自動生成するので、どんな特性をもったデータであっても同じシステムを流用可能です。ディープニューラルネットワークを使ったシステムであれば、文字認識や画像認識だけに限らず幅広い用途で活用できると考えています。

― どんな応用先を考えていますか?

製品の外観検査やインフラ保全など、ディープラーニングを活用するさまざまなシーンで応用できると考えています。私たちとしても、現在はさまざまなデータで本技術の有効性を実証していきたいと思っていますから、事業部と連携しながらより幅広く応用先を検討していきたいと考えています。

お問い合わせ