Japan
サイト内の現在位置を表示しています。
ヒアラブル技術によるヒューマン系IoTソリューションの取り組みと展望
IoTとAI、それらをつなぐネットワーク技術の進展は、人間の五感と脳そして神経になぞらえて説明されることがあります。また、画面を経由してアクセスしてきたインターネット体験も、AR、MRという技術やオムニチャネルというコンセプトとして、フィジカルな空間を前提にデザインされ始めました。ヒアラブル(hearable)技術は、人とAIやロボティクスが協働していく近未来を見据え、フィジカル空間での人々の活動を妨げることなく、ヒトとモノやAIがつながるためのツールとしてデザインされたものです。本稿では、NECのヒアラブル事業のコア技術となる、耳音響認証技術と地磁気屋内位置測位技術の取り組み状況と将来の展望を紹介します。
1. はじめに
IoTとAI、それらをつなぐネットワーク技術の進展は、人間の神経と脳になぞらえて説明されることがあります。IoTデバイスが実世界センサーとしてネットワークでつながると、あちこちで熱かったり、痛かったりすることが、瞬時にサーバ上の人工頭脳に伝達されて、自動、半自動でアクチュエータが動き、実世界に適切なフィードバックが掛かるというものです。解剖医でもある作家の養老孟司氏の著書によると、脳への入力は、五感(六感)だけである一方で、脳からの出力は筋収縮だけだそうです。人は五感からの入力に対して、声帯を振動させ、手足を動かすといった出力を行うというわけです。これは同時に、人に期待する行動を起こさせるためには、その人の五感を通じて適切な入力が必要だ、ということができます。
ところで、枯れすすきを幽霊と見間違えると、人は腰をぬかしてその場に倒れこんだり、逃げ出したりするということがありますが、これは五感からの入力そのものが現実かどうかはたいして関係がないということも示唆しています。
ここへきてARやMRという新しい技術によって、ディスプレイを介さず、実世界に情報が提供される体験ができるようになりましたが、これは現実にはそこにないフェイクな情報を、空間に投影して一見リアリティを持たせることで、人に大きな行動を起こさせることができる十分な可能性を持つ技術であることが分かります。
実際にそこに行かなければ分からない体験こそが、リアルビジネスの強みであるわけですが、2016年、世界規模で普及した「Pokémon GO」のように、そうした強みすらリアリティというデジタル技術で実現され始めたということは注目すべきことです。
さきほどから五感からの入力と述べていますが、こうしたリアリティの技術では、視覚と聴覚そして触覚が特に重要な役割を担います。本稿では、こうした文脈での聴覚や耳の位置で実現される技術を、総称してヒアラブル技術と呼び、説明します。
これまでのインターネット体験は、ディスプレイという二次元のインタフェースを前提に、マウスやキーボード、ブラウザといったさまざまなツールや、EC取引といったサービスがデザインされてきました。
しかしこれからは、人がディスプレイの前にいることを前提としない、常時クラウドAIとつながった状態への対応が求められると考えています。
人々は近い将来、二次元上で巧みにデザインされたUIに応じた操作スキルを身に付ける必要はなくなり、普段誰かと話すように、手や指で物を取るように、そして頷いたりするような、生まれてから自然に身に付いているUIでコンピュータ操作ができるようになります。
既にスマートフォンの登場以来、人さし指と親指、そして声だけで操作をしていることを考えると、このような未来は、ほぼ確実にくると述べても差し支えはないでしょう。
一方、サービスを提供するクラウド側では、ユーザーが画面の前に必ずしもいないことは、困ったこととなります。それは、ユーザーの実世界でのさまざまな活動やシチュエーションをとらえることが、操作性以上に重要だからです。ヒアラブル技術は、このように「誰が」「どこで」「どんな状態か」をとらえていくビジネスツールとなります。
2. ヒアラブルデバイスを用いたIoTソリューション
例「工場などでの従業員の動態管理」
ヒアラブル技術は、耳にデバイスをつけることで「ユーザーの情報をとらえ続ける」ことと、「UIを意識せず情報取得・操作する」ことの両立を可能とするものです(図1)。
イヤホン型デバイスを、体に“プラグイン”することで、視覚と両手が自由となり、従業員の集中力の多くを実世界に向けたまま、また作業や運動を続けながら、必要な時に聴覚から情報を入力し、発話によりインタラクションを行うことも可能になります。
例えば、人の動態管理ソリューションでは、イヤホンを装着した人が誰で、GPSが届かない工場や地下といった屋内でも、どこにいるかどう動いているかが分かるだけでなく、立ち止まっているのか倒れていないか、何を話しているのかを絶え間なくセンシングする機能を提供します(図2)。
取得・測定した情報は、Wi-FiやBluetoothなどの無線を使い、スマートフォン経由でクラウド上のサーバに送信されます。また、取得・測定されたデータを、他のセンサーデータやシステム情報などと組み合わせて分析することにより、人のさまざまな状態を推測することが可能となります。
更に、クラウド上のサーバで分析した結果から、あらかじめ定めたルールに基づいてデバイスに機械音声で伝達することが可能です。これにより、作業により手が離せない状況や、第三者には通知内容を知られたくないような状況においても利用することが可能となります。
第3章では、NECがオンリーワンとして提供するヒアラブル技術の代表例として、耳の特徴を使った生体認証技術及び地磁気の特徴を使った屋内位置測位技術について紹介します。
3. 耳音響認証技術
ユーザー認証は、モバイルデバイスにおいて最も基本的な機能の一つです。身近な例では、スマートフォンのスクリーンロック解除から電子商取引(EC)の決済まで、ユーザーはサービスを利用する多くの場面で認証を受けており、そのような場面はインターネットサービスの多様化と複合化に伴い、今後ますます増えていくと予想されます。このような社会情勢のなか、NECでは、ユーザーに認証手続きの煩わしさを感じさせず、かつヒアラブルデバイスにフィットしたユニークなバイオメトリクス認証(生体認証)技術の研究開発に取り組んでいます。
3.1 動作原理
人間の身体の一部である耳は、それぞれ違った形状を有しています。特に、いわゆる耳の穴に当たる外耳道は、その長さ、広さ、湾曲の度合い、回数、位置など、さまざまな特徴が見られます(図3)。外耳道に関わるこれらの特徴を音響的に測る、すなわち音を使って耳の形状の差異を推定することで個人を特定します。これが耳音響認証の基本的なアイデアです。
楽器は、その形状によって音色が違います。大型の楽器は低い音、小型の楽器は高い音が出ることがよく知られています。耳を楽器と見立てれば、耳音響認証は、楽器の音色からその楽器を推し量るのと似た推論を生体認証に応用した技術です。
次に、実際にどのようにユーザー認証が実現されるのかを説明します。楽器と違って、人間の耳は自分で音を出すことができません。そこで、外部から外耳道に音を送って、その反射音を観測します(図4)。
機器としては、マイク一体型イヤホン(イヤホンマイク)を使用します。一般的なイヤホンが音を発するスピーカのみ備えているのに対して、イヤホンマイクは音を受けるマイクロホンも内蔵している点が異なります。とはいえ市販品もあり、さほど特殊な機器ではありません。近年は、騒音下でも音楽や通話音声をクリアに聴取するためのノイズキャンセラを備えたイヤホンが普及していますが、これも一種のイヤホンマイクで、耳音響認証に用いることができます。
一度イヤホンマイクで音を送って反射音を観測すれば、以降は純粋にソフトウェアの処理となります。すなわち、1秒程度の反射音を周波数分析し、低周波(低音)成分から高周波(高音)成分までおのおのどれくらいの強度で含まれているかを計算し、更に20個ほどの特徴量に集約します。これらをあらかじめ取得したユーザーの特徴量と比較して類似度を計算し、イヤホンマイクを装着した人物がユーザー本人かどうかを判定します1)。
3.2 特長
耳音響認証は、ユーザー認証の実用上好ましい特長を多く備えています。
- 1)高速
たかだか1秒の音響信号を送信して受信するのみ、認証処理も瞬時に完了 - 2)高精度
他人受入率0.01~0.1%で本人棄却率2~3%と、ユーザー認証として実用的な精度を確認済み(NEC評価) - 3)低負荷
指をセンサーにかざすなどの特別な動作が不要で、ユーザーに掛かる負荷が非常に低い。必要な時に何度でも認証でき、常時認証も可能アップしました。 - 4)なりすまし困難
認証の過程は外部からいっさい見えず、認証していることすら分からない。他人の生体情報を盗むのは困難
3.3 今後の展望
耳音響認証は、新しい技術です。今後、NEC独自のAI技術の発展に伴い、精度や速度を一層高めていきます。また、現在は、スイープ信号と呼ばれる専用の音を認証に用いていますが、将来は、ユーザーが日常耳にする音楽や通話音声を用いた認証、あるいは人の耳では知覚できない非可聴音(超音波)を用いた認証も可能となるでしょう。
NECは、生体認証技術に対する長年の取り組みから、指紋認証や顔認証で米国の公的機関、国立標準技術研究所(NIST)のコンテストでたびたび第1位を獲得するなど、世界的に優れた技術を有しています。耳音響認証はこれからの技術ですが、来るべきヒアラブル時代に向け、インターネット社会の安全・安心を皆様にお届けする予定です。
4. 地磁気を使った高精度屋内位置測位技術
NECは、ヒアラブルデバイスに適用させることを前提として、地磁気を利用した屋内位置測位技術の研究開発に取り組んでいます。地磁気は地球上のどこに行っても必ず存在するものであり、屋内では鉄骨などの影響で乱れていることが知られておりますが、この乱れが固定化されていることはあまり知られていません。この性質を利用して、地磁気の乱れが場所ごとにどのように存在しているかをあらかじめ測定記録し、位置測定したい時には、そのデータとの差分を比較することで位置を特定することが可能です。
4.1 地磁気データを変化でとらえる
地磁気データは、電子コンパスから取得可能なxyz直行座標のみで表現されるため、一点のデータだけでは類似データが多数発生し位置特定が困難になります。この問題は、地磁気を移動に伴う変化としてとらえることで、解決可能です。電子コンパスの性質上、基準点がずれてしまうオフセットずれと言う現象が発生しますが、変化量はオフセットずれの発生有無を問わず一定になります。つまり、変化量で地磁気をとらえることで、キャリブレーションを行う必要がなくなり、社会実装を進めるうえでの必須の考え方といえます。
4.2 RAPID機械学習の活用
NECは、地磁気を利用した屋内位置測位技術を実現するに当たり、NECのAI技術であるRAPID機械学習の画像解析版を活用しています。これを利用する理由は、3点あります。
1点目は、ディープラーニングの一つである畳み込みニューラルネット(CNN)であることです。地磁気の乱れは、固定的ですが不規則に発生します。これに対し、ディープラーニング以外の機械学習や推定理論を導入しようとしても法則性がないため、推定の元となる仮説モデルを作ることができません。これが、地磁気による測位が困難と考えられる理由ですが、ディープラーニングは、このような不規則性を問題とせず、逆に強い特徴があると判断します。また、ディープラーニングの結果は、単なるネットワークモデルである位置特定ロジックのみが残りますので、センサー情報解析にありがちな情報肥大化によるストレージ圧迫の問題が発生しないことも大きなメリットです。
2点目は、画像解析であることです。つまり学習時のデータと測位時のデータがどれだけ似ているかで位置特定をしますので、これらのデータを画像に変換して取り扱うことはうまく行かない場合の問題解析を容易にします。データの羅列を比べて解析するよりも、双方の画像が似ているかどうかを比べる方が直感的である分早く、技術開発を進めることに都合が良いです。また、画像であれば、さまざまな先駆者が作ってきた特徴を際だたせるテクニックを活用でき、学習時間を減らすためのデータ圧縮も容易です。
最後の3点目は、RAPID機械学習の画像解析版を利用する最も大きな理由ですが、ニューラルネットの形を利用者が意識する必要がないことです。TensorFlowをはじめとする一般的なディープラーニングライブラリは、利用者がニューラルネットの形を決める必要があります。これは深い専門知識がなければ、できない作業です。しかし、RAPID機械学習の画像解析版は、誰もが専門家と同等の作業を行うことが可能です。測位したい場所ごとに、最適なニューラルネットを決めていくことは極めて困難であり、RAPID機械学習でなければ実現できません。また、RAPID機械学習の高速学習も、技術開発に大きく役立っています。
4.3 歩行者自律航法との組み合わせ
屋内位置測位にはもう一つ重要な技術があり、それが歩行者自律航法(PDR)です。これは加速度センサーとジャイロスコープを利用して相対的な位置の移動をとらえる技術です。地磁気のみ、PDRのみではどうしてもうまく位置測位できないような場面も出てきますが、双方の技術を組み合わせることにより、お互いの苦手とする場面を補完する関係になります。PDR技術はその性質上、センサーの軸が固定されているかセンサーの動きが一定でなければ、正しく動作することができません。センサーは、ヒアラブルデバイスに搭載することで、身体に固定されますので条件が満たされます。
5. 最後に
NECは、ヒアラブルデバイスを始めとする空間型ビジネスツール及びプラットフォームの機能拡充を推進していきます。ヒアラブルデバイスを活用して、バイタルデータを収集して従業員の健康管理やメンタルヘルスケアなどの日常生活をサポートするものや、スマート補聴器として高齢者のコミュニケーション支援を行ったりするものなどを検討しています。
ヒアラブルデバイスを積極的に活用することにより、身の回りで現在おきていることを、リアルタイムに把握することが可能となるだけでなく、より早く、より正確に将来おきることを予測することが可能になります。そして、それら予測を基に、再び人の行動へフィードバックをすることができるような仕組み作りを進めます。これらの活動を通じて、人々の「安全・安心」な暮らしに貢献できるソリューションを提供していきたいと考えています。
- *Pokémon GOは、任天堂株式会社、株式会社クリーチャーズ、株式会社ゲームフリークの登録商標です。
- *Wi-Fiは、Wi-Fi Allianceの登録商標です。
- *Bluetoothは、Bluetooth SIG,Inc.の登録商標です。
- *その他記述された社名、製品名などは、該当する各社の商標または登録商標です。
参考文献
- 1)T. Arakawa, T. Koshinaka, S. Yano, H. Irisawa, R. Miyahara, H. Imaoka, “Fast and accurate personal authentication using ear acoustics,” Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), Dec. 2016.
執筆者プロフィール
NTTドコモ営業本部
シニアマネージャー
データサイエンス研究所
主幹研究員
電子情報通信学会、人工知能学会、日本音響学会、IEEE各会員 工学博士
新事業推進本部
主任