Please note that JavaScript and style sheet are used in this website,
Due to unadaptability of the style sheet with the browser used in your computer, pages may not look as original.
Even in such a case, however, the contents can be used safely.

音声認識技術のしくみ

音声認識とは

音声認識とは、人の「声」を「文字」 に置き換える仕組みです。

「声」と「音の情報」・「言葉の情報」を照合し、「声」と最も近い語彙(何と言ってるか)を推定し文字に変換します

音声認識技術のコアとなるデータとして、音響モデル、言語モデルがあります。正しい文字に変換されるためにはこのデータが充実している必要があります。
それぞれのデータについて説明します。

音響モデルとは音の波形データをあつめたものです。

音響モデルを作るには、音声データと音声データを書き起こしたテキストデータが必要になります。音の波形は、話者や環境によって異なるので、認識率をあげるためには様々なサンプルデータを集める必要があります。

多数の話者の音声を集める。利用環境に応じ適切なものを集める。

言語モデルとは単語とその並び方の情報をあつめたデータです。

単語と単語のつながり方を確率を使って表現

NECならではの技術として、次のようなものがあります。

「モデルベース音声区間検出技術」

雑音部分を除いて、声の部分だけを認識する技術です。音を認識する前段階の音声検出時の処理に組み込まれています。

声と雑音を自動的に区別し、声だけを高精度に認識

人の声 (音声区間)と、人の声以外(非音声区間)とを高度に区別し、雑音を誤認識することを防ぐ

「複数話者自動適応化技術」

複数人が話している場合に、各話者の特徴を話者ごとの音響モデルに反映することで認識率を上げる技術です。各話者の発話を事前に登録することなく、自動で話者毎の音響モデルを作成します。

声の特徴を自動的に捉えて認識率UP

1発話ごとに話者毎に異なる声の特徴を捉え、それを元に音声認識することで高精度で高速に認識

認識対象音声に応じた音声認識技術

音声認識技術は対象の音声が「単語」なのか、「書きことば」なのか、「話しことば」なのかに応じて適用する技術を変えることで、認識率を向上させることができます。

「人」対「機械」(「認識させる」と意識した読み上げ(単語・書きことば))なのか、「人」対「人」(自然な会話(話しことば))なのか適用する技術を変えて、認識率を向上

例えば、コンタクトセンターでの会話のように話題がある程度決まっているが、実際に発話される内容が様々である場合は、上図のように言語モデルとして統計モデルを用いることで認識率が向上します。

一方、品名と個数をコンピュータへ入力するように発話する内容が定型的な場合は、統計モデルよりも、発話内容を列挙したテンプレートを言語モデルとして使用したほうが認識率が向上します。音響モデルについても、入力機器や発話する場所等に応じたものを用いることで認識率が向上します。

コンタクトセンター会議の他、ロボットやゲーム等にも「認識対象音声」に応じた音声認識技術が使われています。

NECでは、広範囲な「認識対象音声」に応じた技術を保有しております。

音声認識技術に対するNECの取り組み

日本の音声認識技術の歴史は、1960年 京都大学とNECの共同研究によりスタートしました。同年、共同で音声タイプライタを開発しました。このタイプライタは、トランジスタ式の音声認識専用の装置として開発されたもので、「あ」、「い」というように一音ずつしか認識できませんでしたが、当時としては画期的な技術でした。
その後、1978年には世界初の連続音声認識装置DP-100を開発しました。これは荷物の仕分けなどで手がふさがっている時に、音声でデータ入力ができるシステムです。
最近では、2006年に世界初の旅行会話を日英自動通訳できるPDA「VoToL」を製品化しました。

この間、数々のNEC独自技術を開発し、製品へ組み込んでおります。
音声認識技術の特許保有数は国内No.1です。

特許保有数NO.1の実績