NEC、声認証技術を強化、5秒で個人を認識可能に
~フレーズに依存しない自然会話で高精度認識~
2019年2月19日
日本電気株式会社
NEC は、特定フレーズに依存しない非定型の音声データを用いるテキスト独立方式における声認証技術を強化し、認証時間を10秒から5秒に半減、認識精度を90%から95%に向上させました。
今回、深層学習を用いた新手法を開発するとともに、学習用音声データの話者数を5倍に拡張することで、自然会話による認証時間を10秒から5秒へ半減しました。また、背景雑音や劣悪な通信環境下での電話会話や、複数話者の声が混在する状況など人でも聞き分けることが困難な環境で従来10%程度であった誤認証率を5%に半減し95%という高精度な個人認識が可能となりました。特定のフレーズに限らない短い発声からでも個人の特徴を正確に抽出・識別することができるため、音声を利用した簡便なユーザインタフェースでの高いセキュリティを実現します。なお、95%の認証精度は米国国立標準技術研究所(NIST)が開催する第三者評価において実証されました。
人間の身体的特徴や行動的特徴を用いて個人を認証する生体認証は、従来のIDとパスワードを使った認証と比べて、忘れる心配がなく、認証時のユーザの負担も軽いことから、指紋認証や顔認証を中心に幅広い場面で普及が進んでいます。特に声認証は、話すという簡便な動作で認証ができる手軽さから、指紋や顔に続く新たな生体認証手段として注目されています。
声認証には特定フレーズの発話音声データを登録および認証に用いる「テキスト依存方式」と特定フレーズに依存せず非定型の自然な発話データを登録し、認証に用いる「テキスト独立方式」の2方式があります。テキスト依存方式はすでにスマートスピーカー等で実用化されていますが、特定のフレーズを使用する必要があり利活用の場が限定されていました。一方、テキスト独立方式では自然会話から認証が可能であるため、発言スピード、アクセント、言語に依存せず応用・活用の場が広く期待されています。これまでは、認証に10秒以上の長い発声が必要といった技術的制約がありましたが、今回の新技術は、これらの課題を解決し、声認証技術の普及を大きく推進するものです。
本技術は、本人確認手続きの効率化という点でコールセンター等のお客様応対業務や、他の生体認証等との連携によるEコマースやテレホン/ネットバンキングでの決済手続きの利便性向上、音声鑑定のような犯罪捜査支援などへ応用することを視野に、2020年の実用化を目指します。
NECは2020年度までの3カ年の中期経営計画「2020中期経営計画」において生体認証「Bio-IDiom」(注1)を中心としたセーフティ事業をグローバルでの成長エンジンに位置づけ、「NEC Safer Cities」(注2)のもとに同事業を強化しています。今後も、セーフティ事業を中心に社会ソリューション事業の拡大を目指します。
技術強化の特長
- 深層学習を用いて、認証時間を10秒から5秒に短縮
深層学習を用いて音声から個人の特徴を効率的に抽出する新手法を開発し、10秒程度必要とされていたユーザの発話時間をおよそ半分の5秒に短縮しました。
本手法は、多層構造のニューラルネットワークに数千人規模の音声サンプルを与えて本人と別人の音声を比較・学習することにより、多層構造の中に最適な「特徴抽出ロジック」を形成します。このロジックは、音声全体を検索する「特徴抽出ネットワーク」と個人特有の音声パターン(話し方、クセ、イントネーション等)の箇所を検索・抽出し重みづけする「注意ネットワーク」で構成されます。これにより、手掛かりの乏しい短時間の音声から効率よく個人の特徴を的確にとらえることが可能となります(注3)。
特徴抽出ロジックを組み込んだ声認証の概念図
- 学習データを約20倍に拡張することで誤認証率を低減
背景雑音や回線のノイズなどの環境変動に強く、誤認証を防ぎ高精度な認証を行うためには、より多くのサンプルデータを集めることが必要です。今回、一つの音声データにノイズや改変を加えることによって別の音声データを作り上げるという独自のデータ拡張技術を活用しました。背景ノイズが目立つ音声や、複数の話者が混じる音声、ある人物の声を改変して別の人物の音声をシミュレートするなど、学習に有効な音声データの話者数を約5倍、データ量にして約20倍に拡張することにより、AIの学習を強化して誤認証率を低減しました。データ拡張と深層学習を用いた新手法との組み合わせにより、誤認識率5%を実現しています。
これらの研究開発は、東京工業大学 情報理工学院 篠田浩一教授との共同研究を通して行われました。
なおNECは、アメリカ国立標準技術研究所(NIST)が開催するベンチマークテスト、Speaker Recognition Evaluation (SRE)に本技術にて積極的に参加しています。2018年は、背景雑音や劣悪な通信環境下での電話会話から特定の人物を見つけるテスト、およびYouTubeに代表されるネット動画に登場する複数の人物の中から特定の人物を見つけるテストが行われました。
電話会話のテストでは、NISTが公開したベースラインシステム(注4)の精度88.8%に対して、NECは95.0%という優れた結果を出し、劣悪な環境下での高い認証精度を実証しました。
以上
- (注1)
「Bio-IDiom(バイオイディオム)」は、顔、虹彩、指紋・掌紋、指静脈、声、耳音響など、NECの生体認証の総称です。世界トップクラスの技術や豊富な実績を活かし、ニーズに合わせて生体認証を使い分け、あるいは組み合わせることで、「誰もが安心してデジタルを活用できる世界」を実現していきます。
https://jpn.nec.com/solution/biometrics/index.html - (注2)NEC Safer Cities:
生体認証や映像解析を含むAI、IoT関連の先端技術を活用して、安全・安心で効率・公平な都市の実現を支えるNECの事業領域。人々がより自由に、個人の能力を最大限に発揮して豊かな生活を送ることのできる社会の実現に貢献。
https://jpn.nec.com/safercities/index.html - (注3)論文参照:
Koji Okabe et al., "Attentive Statistics Pooling for Deep Speaker Embedding," INTERSPEECH 2018, Hyderabad, 2018 - (注4)同ベンチマークテストにおける標準システムであり、近い将来に実用化が期待される。
声認証技術について
本件に関するお客様からのお問い合わせ先
NEC 研究企画本部 研究プロモーショングループ
お問い合わせ
NECは、社会ソリューション事業を推進する
ブランドメッセージ「Orchestrating a brighter world」のもと、
今後の世界の大きな変化(メガトレンド)に対応する
様々な課題解決や社会価値創造に貢献していきます。
詳細はこちらをご覧ください。
https://jpn.nec.com/profile/vision/message.html