ニュース

NTT、声の特徴から聞きたい人の声を抽出「SpeakerBeam」。選択的聴取実現へ

 NTTは、複数の人の声が混ざった音声から、話者の声の特徴に基づき、その人の声だけを選択的に抽出する技術「SpeakerBeam」を開発した。NTTが開発した深層学習の新技術を用いており、今後性能改善を行ないながら、「人の会話を理解するコンピュータ」実現のための要素技術として応用検討を進める。

 SpeakerBeamは、様々な声や雑音が聞こえている環境で、目的話者の声の特徴やその位置だけに注目して、その声を聞き取る人間の聴覚の能力「選択的聴取」と同等の機能の実現に相当するという。選択的聴取のうち、話者の位置に注目して声を聞き取ることは、すでにコンピュータでも実現されているが、目的話者の声の特徴に注目して聞き取る能力は、世界初としている。

 自動音声認識技術は、近年スマートフォンやスマートスピーカーなどの音声インターフェイスで利用されている。しかし、日常的な利用では、複数の人が会話をしていたり、テレビの音声が背景で流れているなど、目的話者以外の声が混ざって収録されること起きる。こうした際に「選択的聴取」ができないため、こうした状況に対応できないという課題があった。

 今回開発したSpeakerBeamは、収録音にどんな音が含まれているかに依らず、目的話者の声の特徴のみに注目して、その特徴に合致する音声を抽出。マイク1本でも処理可能で、多くのマイクが利用できれば、さらに品質の良い音声の抽出が行なえる。複数の話者の声を混合した入力音声を用いたシミュレーション実験では、音声認識精度を60%改善できたという。

 SpeakerBeamでは、「目的話者の声の特徴に基づく選択的聴取」と「深層学習の新技術」の2つの技術を導入。

 前者では、声の高さ、声質、抑揚、強勢、音長、リズムなどの人の声の個性に着目。深層学習技術に基づき、声の特徴の抽出方法、および声の特徴に基づく声の抽出方法の両方を、データから同時に学習する仕組みを構築したことで、比較的短い発話からでも声の特徴を抽出し、選択的聴取が行なえるようになったという。さらに、目的話者の声に注目し、特徴に合致する音を取り出すというシンプルな音源分離処理により、目的話者の声の抽出を実現する。

 後者のSpeakerBeamのための深層学習新技術では、主ネットワークと、補助ネットワークの2つのニューラルネットワークを構成。二つのネットワークを組み合わせた状態で用いた時に最適な選択的聴取が実現できるように、多数の話者や背景雑音を含む大量の学習データを用いて、各ネットワークの処理を事前学習。学習に含まれていない目的話者に対しても、選択的聴取が行なえるようになるという。