ニュース
NTT、スマホをビデオ撮影の遠隔マイクにする「振幅スペクトルビームフォーマ技術」
(2014/1/30 15:02)
日本電信電話(NTT)は29日、スマートフォンをテレビ会議やビデオ撮影のマイクとして使える「振幅スペクトルビームフォーマ技術」を発表した。2014年中に、既存のテレビ電話などへの導入を目指し、今後は遠くの人の声を収録するビデオ撮影などへの展開も目指すという。開発はNTTメディアインテリジェンス研究所が行なっている。
「振幅スペクトルビームフォーマ技術」は、無線LAN(Wi-Fi)に接続したスマートフォンから送信された遅延の異なる複数の音声信号を適切に混合し、聞き取りやすい高音質な音に補正するというもの。テレビ電話会議などで遠隔通信する場合などに、専用の拡張マイクなどを用意しなくても、手持ちのスマホに同技術対応のアプリをインストールするだけで、ワイヤレス拡張マイクとして利用できる。
従来のテレビ電話を用いた音声通話やビデオカメラの映像撮影時には、話し手がテレビ電話/ビデオカメラ本体のマイクから離れた位置で発言をすると音声が小さくなり、聞き取りにくくなる。また、既存の有線マイクを使って拡張した場合も、ケーブル配線などでマイクの設置範囲が限られるほか、ワイヤレスマイクシステムは導入費が高価となる。これらの課題に着目して今回の新技術が開発された。
既に、スマホを拡張マイクとして活用するという技術は存在しているが、スマホなどのマイク信号をデジタル信号として無線LANを介してミックスした場合、各機器のサンプリング周波数の微小なずれや、機器の持つ遅延の差異により、音が2重に聞こえたり、音質が大幅に劣化するといった問題があったため、スマホを拡張マイクとするサービスはこれまで無かったという。
振幅スペクトルビームフォーマ技術は、音の遅延やサンプリング周波数に微小な差異で生じる音質の劣化を抑えた音声ミキシングを実現。新たなマイクシステムなどの追加をせずに、手持ちのスマホをテレビ電話やビデオカメラのワイヤレス拡張マイクとして利用できるようになる。話し手の手元にあるスマホをマイクとして活用するため、聞き取りやすい高品質な音で聞き手に届けられるようになったという。
話者が複数いる場合の音源の分離には、一般的な従来技術のように複数のマイクに到達する音の到達時間差を使用するのではなく、音声信号を遅延やサンプリング周波数の違いの影響を受けやすい特徴量(時間差)と、影響を受けにくい特徴量(音量差)に分離。音量差のみを用いて音源を分離している。通話中の発話から自動的に発話者の切り替わりを検出し、発話者ごとの音量差情報を自動で獲得。これにより、音が2重になるのを防ぎ、話者ごとの音量を自動で調整する。
NTTは同技術とノイズ抑圧処理やハンズフリー通話のための処理(エコーキャンセラ)を統合してAPI化。また、スマホ用アプリ向けにもシンプルなAPIでソフトウェアライブラリ化しており、拡張マイクのアプリ作成を簡単に行なえるという。既存のテレビ電話やテレビ会議に対しても、ソフトウェアのアップデートのみで導入可能としている。
2014年中に、NTTグループ企業を通じて既存のテレビ電話やテレビ会議などに、ソフトウェアのアップデートによって同技術の導入を目指す。今後は、専用端末を必要とせず、スマホを複数台連携させるだけで実現する音声会議やパソコンを使ったWeb会議などへの応用も図る。通話以外に、ビデオカメラ/ICレコーダなどの音声収録への応用も目指している。