サイト内の現在位置

世界最高水準の高い精度を実現 声認証技術

NECの最先端技術

2019年2月19日

NECは2018年に第三者評価機関のテストに参加するなど、声認証技術の研究開発に力を入れてきました。声認証は現在どのようなレベルに達しており、どう活用できるのか。開発者に詳細を聞きました。

過酷な条件で95%の認証精度を実現

バイオメトリクス研究所 主幹研究員 工学博士 越仲 孝文
バイオメトリクス研究所
主幹研究員
工学博士
越仲 孝文

― NECの声認証には、どの程度の精度があるのでしょうか?

NECは顔認証をはじめとした世界No.1の生体認証を複数保有していますが、近年研究開発に着手した声認証も非常に高い精度を実現しています。
2018年には、第三者評価機関であるアメリカ国立標準技術研究所 (NIST) が開催したベンチマークテストに参加し、その性能を実証することができました。テスト課題は技術的に非常にチャレンジングなもので、たとえば電話会話内での人物特定という課題で使われた音源は背景雑音や回線のノイズが非常に強く、私たち人間でも聞き取りが難しいほどのレベルのものでした。しかし、このような過酷な状況の認証であってもNECの声認証システムは約95%の精度を保つことに成功しました。NISTが公開したベースラインシステムの精度は約89%でしたので、誤り率はベースラインシステム比で半分以下を記録することができました。非常に高い技術力を証明できたことがおわかりいただけると思います。
声認証のNIST評価はアカデミックな性格が強いため、結果順位の公表は許されていないのですが、本評価は、私たちの声認証が世界的なコンテストで戦える高いレベルにあることを改めて確認する良い機会になりました。

環境変動にもブレにくい認証精度

― なぜ、NECの声認証の精度は高いのでしょうか?

環境変動に強いことが、大きな理由ですね。認証を阻害するさまざまな要因があっても問題なく認証できるようにシステムを設計しています。
深層学習では、より多くのサンプルデータを集めることが高い精度につながっていくのですが、NECでは一つの音声データにノイズや改変を加えることによって別の音声データをつくりあげるという独自のデータ拡張技術を活用しています。これによって、大量の話者パターンを獲得できるので、精度が大幅に向上するわけですね。背景ノイズが目立つ音声や、複数の話者が混じる音声のほか、Aという人物の声を改変して別の人物A’の音声をシミュレートすることができるため、学習に有効なデータを効率的に収集することができます。実際、本技術の導入によって、30%程度の認証誤りを削減することができました。
また、個人の特徴を抽出する独自のニューラルネットワークを組み込んでいることも大きなポイントです。声の波形において、どの部分にその人らしい特徴が出るかというのは一人ひとりで異なります。そこで、NECでは特徴が出る箇所を自動的に抽出して認証側のニューラルネットワークへ伝達するという独自の「注意機構」を開発しました。本技術は2018年9月に論文発表して、学会でも高い評価をいただいています。* この機構の活用によって、認証に必要な発話時間を従来の半分程度に短縮することもできるようになりました。

  • K. Okabe et al., “Attentive Statistics Pooling for Deep Speaker Embedding,” INTERSPEECH 2018, Hyderabad, September, 2018
声認証技術の仕組み

遠隔地から電話で認証できる唯一の生体認証

― どのような応用を考えていますか?

まず言えるのは、声認証は電話との相性が非常に良いということです。電話を活用することで、認証対象が離れた場所にいても問題なく認証することができます。これは、他の生体認証にはできない特長といえるでしょう。
また、声を出すということは、比較的心理的な負荷が少ない動作です。指を機械に乗せたり、目をカメラへ近づけたりするなどの積極的な動作を必要としないので、より手軽に認証できるという点も大きな特長ですね。
こうした特長を活かせるシーンとして、いま想定しているソリューションは大きく分けて三つあります。
まず一つ目は、eコマースやネットバンキングでの運用です。電話を介して本人確認や決済手続きができるので、安全性と利便性をバランスよく兼ね備えたサービスを展開することができます。
二つ目は、組織犯罪捜査への活用ですね。話している声から個人を認証できる声認証は、振り込め詐欺捜査や国際犯罪組織などに対する音声鑑定のような犯罪捜査支援においても役立てることができるはずです。
もう一つは、コールセンターへの導入です。声から話者を認証し、過去の通話記録データと照合できるので、トラブルの回避やより良いサービスの提供に役立てることができるでしょう。