ページの先頭です。
サイト内の現在位置を表示しています。
  1. ホーム
  2. ソリューション・サービス
  3. 電機・機械業向けソリューション
  4. 三菱電機グループの皆さまへ みにマガ
  5. 林エバンジェリストが語る 最新技術動向
ここから本文です。

三菱電機グループの皆さまへ みにマガ

林エバンジェリストが語る 最新技術動向

林エバンジェリストの顔写真

音声認識は、キーボードを利用しない夢のユーザインタフェースとして、長年研究されてきました。近年では、その認識率も目覚ましく向上し、あちこちの現場でも盛んに利用されるようになってきています。マイクとスピーカさえあれば、キーボードやスクリーンを必要とせず、いつでも、どこでも、ハンズフリーで、データの入力や、検査結果の入力など、様々なシーンで利用できます。
このような音声認識技術がどこまで進んでいるのか、音声合成技術も含めてNEC エバンジェリストの林雄代がご紹介します。

音声認識・音声合成

音声認識は、古くて新しい技術です。コンピュータが発明された当時のユーザインタフェースは、キーボードを利用する方式が標準でした。しかし、キーボードを利用する方式は、コンピュータの小型化・モバイル化が進むにつれ利用しにくくなり、音声での利用が求められるようになってきました。NECでは、今から50年ぐらい前に、京都大学と共同で、日本語による音声認識技術の開発を日本で初めて着手しました。その後、様々な音声認識エンジンの製品化を行ってます。

音声認識の仕組みは、人がマイクに向かってしゃべると発生する声の波を、音の波形サンプルである「音響モデル」、「単語辞書」、「言語モデル(文法)」などを利用して解析し、正しい「かな漢字」交じりの日本語に置き換えるというものです。

一昔前の音声認識エンジンは、特定話者方式と呼ばれるもので、予めしゃべる人の声を登録する必要がありました。現在の音声認識エンジンでは、話者登録の必要のない不特定話者方式が一般的です。近年では、認識率も格段に向上したため、様々な分野で利用が進んでいます。

ただし、入力手段として声=音を利用する為、周りの環境ノイズなどの影響を大きく受けてしまうという欠点もあります。具体的な課題は、マイクからの距離、環境ノイズ、しゃべり言葉の認識の3点です。

そのための様々な対策が製品に適用されています。

その中で、NECが特に力を入れているのは、対雑音性能です。マイクを2つ用意し、片方のマイクで、しゃべる人の声をとり、もう一方のマイクで、周りの雑音をとります。音声認識処理をする前に、この雑音と逆相の波を作りだし、この3つの波(話者の声、雑音、雑音の逆相の音)をまぜることにより、雑音の影響を打ち消すという方式です。

このような技術のおかげで、雑音の激しい現場での、音声認識の利用が可能となっています。ちなみに、NECが開発した対雑音性能では、80デシベルの雑音下(地下鉄の走行時の雑音とほぼ同等)でも、音声認識を実現することが可能です。

このような音声認識の一つの利用シーンとして、自動通訳があります。日本語でしゃべった言葉を認識し、英語などの海外の言葉に翻訳し、音声合成により変換した言葉を読み上げてくれるという仕組みです。現在、2020年に向けて、総務省が中心となり、数十か国の海外の言葉と日本語の双方向自動翻訳エンジンを準備中です。完成すれば、スマートフォンで、無料で利用出来るアプリとして提供されることでしょう。

一方、音声合成エンジンの開発も進んでいます。たとえば、店舗の自動ドアと連動させて「いらっしゃいませ」と呼びかけてくれるような仕組みは、予め録音しておいたデータの再生で問題ありません。しかし、天気や、株価といった時々刻々と変わるデータや、突発的に発生する事象に対するアナウンスなどは、予め録音しておくことが難しいです。この場合に、有効になるのが音声合成エンジンです。文字で書き込まれたテキストデータを、この音声合成エンジンに入力すれば、音声に変換して読み上げてくれるという仕組みです。

一昔前の音声合成エンジンの声は、いかにも機械がしゃべっている声で、人間が聞きにくい品質のものでしたが、最近では、人間がしゃべっているのとほぼ同等になってきています。可変トーン音声合成技術と呼ばれる技術を利用することにより、声のトーンや抑揚をコントロールすることが可能です。マインドにあわせた、いろいろな声の種類による読み上げ、声の高さ、アクセントの強さ、発声速度、声の太さなどから成るパラメータセットを切り替えて、多彩な声質を実現することが可能です。これにより、特定のアニメのキャラクタの声を合成するといったことも可能になってきています。

音声認識・合成技術を利用すれば、アップル社のSiri、マイクロソフト社のCortanaといった音声アシスタントシステムやグーグルの音声検索といったものに代表される音声によりコンピュータを利用することも可能となります。今まで以上に音声インタフェースの利用が進むことでしょう。

(2016年7月21日)

お問い合わせ

ページの先頭へ戻る