ページの先頭です。
サイト内の現在位置を表示しています。
  1. Home
  2. ぶれいく
  3. 第34回
ここから本文です。

林エバンジェリストが語る 最新技術動向

林エバンジェリストの顔写真

エバンジェリストの林です。

今回は、鉄道の車内アナウンスやエスカレータでの注意喚起など、近年いたるところで利用が進んでいる「音声合成」を取り上げてみます。

音声合成は、人間の音声を人工的に作り出すことです。従来は、事前にアナウンサーなどにより録音した音声を流すことが主流でした。しかし、時々刻々と変化する状況、突発的な事象に対応するためには、予め録音する方法では間に合わないケースが出てきました。そのため、その場で「音声合成」システムに文字列を与えることにより、人工的な音声を作り出すことでリアルタイムに対応するという方法が発明され現在に至っています。

今回は、この「音声合成」に焦点を当て、どのような技術が利用されており、どのような使い方ができるのか等のポイントをご紹介します。

第34回 音声合成

音声合成は、人間の音声を人工的に作り出すことです。従来は、事前にアナウンサーなどにより録音した音声を流すことが主流でした。しかし、時々刻々と変化する状況、突発的な事象に対応するためには、予め録音する方法では間に合わないケースが出てきました。そのため、その場で「音声合成」システムにテキストを与えることにより、人工的な音声を作り出すことでリアルタイムに対応するという方法が発明され現在に至っています。

一般的に、音声合成を行うシステムをスピーチ・シンセサイザー(Speech synthesizer)と呼び、これにより生成した音声を合成音声と呼んでいます。その中身は、人工的に人の声を合成するシステムであり、テキストを音声に変換できることから、しばしばテキスト読み上げ(text-to-speech:TTS)システムとも呼ばれます。また、テキストの代わりに発音記号を音声に変換するシステムも存在しています。

たとえば、店舗の自動ドアと連携させて、顧客来店時に「いらっしゃいませ」という声を自動的に発するシステムを考える場合、発する言葉「いらっしゃいませ」は、常に一定です。このような場合は、予め「いらっしゃいませ」という音声を録音しておき、これを顧客の来店都度(自動ドアが開いたときに)、再生すればよく、音声合成を適用する必要はありません。しかし、天気予報や株価、時報、突発的な出来事の状況説明などでは、予め音声を録音しておくことができません。このように予め音声を録音できない状況で利用されるのが音声合成です。

一昔前の音声合成は、いかにも機械がしゃべっているような抑揚のない、アクセントもおかしな音声が多かったようです。しかし、近年、この音声合成技術は格段に進歩し、人間の声と変わらないものも提供できるようになってきています。

音声を生成する主要技術は、大きく波形接続型音声合成 (concatenative synthesis) とフォルマント合成 (formant synthesis) の2つに分けることができます。

(1)波形接続型音声合成

波形接続型音声合成は、基本的に録音された音声の断片を連結して合成する方法です。一般に、この方式が最も自然な合成音声になるといわれていますが、発声のバリエーションと波形の断片化の細かさによっては出力音声に欠損が生じ、自然さを損なうこともあります。

以下の3つの方式が一般的な手法です。

①単位選択合成 (Unit selection synthesis) 

コーパスベース音声合成方式とも呼ばれます。大きな音声のデータベース(通常一時間以上の録音された音声から成る)を使用します。

②Diphone合成 (Diphone synthesis)

音声ライブラリにターゲットとする言語のDiphone(音と音のつながり部分)を全て持ち、それを使用して合成します。

③分野限定合成 (Domain-specific synthesis)

録音された単語や文節を連結して音声を合成します。

(2)フォルマント合成(合成音声)

フォルマント合成は録音された人間の音声を利用するのではなく、基底周波数、音色、雑音レベルなどのパラメータを調整して波形を作り、人工的な音声を作る技術になります。合成された音声はロボット的に聞こえる音声になるのが特徴です。また、フォルマント合成は波形接続型音声合成と比べて、次のような特徴も持っています。

①音の欠損がないので、高速に発声させても明瞭に聞き取ることができます。このため高速さを要求されるテキスト読み上げによく使われています。

②波形接続型音声合成のような音声データベースを必要としないので、データのサイズが小さくなります。

③出力音声を容易に変化させることができるので、イントネーションや音色を自由に変えることができます。

以上の技術を利用して、コンピュータのソフトウェアとしてシステム化したり、音声合成LSIをハードウェアとして組み込んだシステムとしたり、さまざまな音声合成システムが作り出されています。

音声合成は、既にさまざまな領域で利用されています。

災害時の防災アナウンスや、駅構内、バス停、観光案内等のアナウンス、侵入・異常検知の自動通知などで広く利用されています。また近年では、外国語対応も進み、英語や中国語、韓国語といったアナウンスでも、通訳を用意することなく、自然な発音でのアナウンスが可能となっています。

以下のサイトでサンプル音声を掲載していますので、いつでもご試聴いただけます。(NEC製品:CSVIEW/VoiceOperator利用)

http://jpn.nec.com/csview/voiceoperator/voicesample.html

NECでは、「CSVIEW/VoiceOperator」という名称で、音声合成エンジンの製品を提供しており、既にいくつかの事例もあります。また、英語、中国語、韓国語といった多言語への対応も進めています。

また、NECでは音声合成の研究を進め、「聞いて見て楽しいブログ」という名称で、ブログを感情たっぷりに読み上げてくれるシステムの研究開発も進めています。これには、マインド判定技術と呼ばれる技術が採用されています。評価表現を含む文に込められた、筆者の気持ちがポジティブかネガティブかを判定し、それに対応した声で読み上げるといったことが実現可能です。

このシステムの研究をさらに進め、「コエラボ」という名称で、アニメのキャラクターの声で音声合成を行うサービスの実験も行いました。このサービスには、可変トーン音声合成技術という技術を利用しています。音声合成のもとになるアナウンサーの大量の声から、その人の特徴をよく表わす部分をまとめて取り出して利用する、独自の「二段単位選択技術」を使い、「この人らしさ」「このキャラクターらしさ」を実現しようとする試みです。

今後、音声合成に関しては、たとえばカーナビが、自分のお気に入りの声でルート案内をしてくれたり、2020年に向け多言語に対応した音声合成の適用など、その利用領域がますます増えてくることでしょう。


Top of this page