◇ 最新ニュース ◇
【11月30日】
【11月29日】
【11月28日】
【Watch記事検索】
NEC、オーケストラから1つの楽器だけを聴く技術を開発
-顔検出と音源分離を組み合わせ。臨場感の向上へ


ビデオ会議システムをイメージしたデモ
9月25日発表


技術の概要

 日本電気株式会社(NEC)は25日、複数の人物が話している映像の中から、特定の人物の声や映像のみにフォーカスする「能動的メディア処理技術」の研究開発に着手したと発表した。2012年の実用化を目指しているほか、この処理技術の一部は、次世代オーディオコーデックの標準規格であるMPEG-SAOCへの採択が決定しているという。

 例えばビデオ会議やパーティー会場など、多くの人が同時に話しているような映像から、1人の映像/音声のみを抜き出し、スピーカーで再生する際にその音像を好きな位置に配置できるという技術。人間の声だけでなく楽器にも使えるため、“オーケストラからピアノだけに注目して聴く”といったことも可能になるという。ただし、既存の映像の中から抜き出すことはできず、専用のシステムで撮影や中継した映像のみで利用可能。

 この技術は、以下の3つの技術を組み合わせて実現している。

  • 複数の人間が同時に発話している音声信号から、信号の独立性を分析することで、それぞれの人物の音声を分離する技術
  • 発話している映像から人物の顔を検出。発話位置を推定することで、分離された音声信号と人物を紐付ける技術
  • 注目したい人物を選択することで、その人物の音声を自分の前後左右の自由な位置に配置する技術
複数の人間が同時に話す音声信号から、それぞれの人物の音声を分離する技術 人物の顔を検出し、発話位置を推定。分離された音声信号と人物を紐付ける技術 注目したい人物を選択することで、その人物の音声を自分の前後左右の自由な位置に配置する技術

技術デモは、5人が会議している場面が使われた

 デモンストレーションは5人の会議で行なわれた。会議の様子をビデオで撮影しつつ、28個の小型マイクを内蔵した試作マイクで録音する。録音した音声には5人の声が混在しているが、「独立成分分析」という処理を用いて、時間変化する音響信号の周波数と位相の変化を考慮して分析。5人の声に分離できるまで演算処理を繰り返し、別々の音声信号として出力する。

 さらに、映像から顔認識技術を使い、喋っている人の位置を推定。28個の小型マイクに届いた音の違いを処理することで、音がした方向も判断できるため、認識した人物と、その人物がいる場所から届いた声をマッチングできる。これを統合処理することで、会議中の5人の中から1人を選ぶと、その1人の音声と映像がクローズアップされ、他の人の会話音量が低下。その1人が何を話しているかが明瞭に聴き取れるという。

 音声の分離は、喋り方などから個人を認識しているのではなく、あくまで周波数の違いで抽出する。そのため、例えば「同じような低い声の男性が、極近い隣同士の席に座っている」という場合には声の分離や、分離した声の顔検出映像との紐付けの難易度が高くなるという。

 なお、こうした顔情報と紐付けされた音声は、自由な音像配置技術を介して再生される。バーチャルサラウンド技術などでも使われるもので、両耳までの届く音の周波数特性である頭部伝達関数を用いて、音響信号の周波数特性を変化させることで、任意の場所から聞こえてくるように再生できる。これらの技術を組み合わせることで、5人の会議から、聴きたい人の声をピックアップし、その人の顔を拡大表示する……というシステムが実現する。

デモの様子。画面下部にある人間の頭のイラスト。左の写真では何も処理していないため、5人の話す声が全てミックスされ、頭内に定位している。右は新技術を使った写真。一番右側で話している人物にフォーカスし、その人物の言葉のみを聴いている。映像もその人物を拡大して中央に配置。それに合わせて本来右から聞こえる音像も、中央に配置している

5人の会議の録音に使われた試作マイク。28個のマイクを内蔵しており、その配置により、音がした方向を特定できる。なお、5人会議のデモでは28個中10個使うだけで方向の特定が可能。逆にパーティー会場では、こうした小型マイクを複数搭載したマイクを数基設置することで、会場全体をカバーできるようになるという

 具体的な利用イメージとしては、ビデオ会議の高機能化、監視システムへの応用、議事録システムへの活用、補聴器などへの活用も視野に入れているという。ほかにも、コンサート映像を視聴する際に、チケットに応じた視聴位置で聞こえる音を自宅鑑賞時に再現したり、多数のカメラを使い、空間的に自由な視点から視聴できる未来のテレビが実現した際に、サッカーのピッチの中やゴール前など、カメラが置けない視点からの映像/音声の再現などにも活用できるとする。

利用イメージ 全員が同時に会話しているパーティー会場で、1人の人物に注目して声を聞き、映像を拡大表示している技術利用イメージ


■ MPEG-SAOCへ採択決定

共通基盤ソフトウェア研究所の芹沢昌宏研究部長

 共通基盤ソフトウェア研究所の芹沢昌宏研究部長は、この研究開発に着手した理由を「AVコーデックやAV機器の臨場感の向上や、臨場感のあるコミュニケーションに向けた取り組みの一環」と説明する。臨場感の向上と言うと、一般的には画面の大型/高精細化や立体表示、多チャンネルサラウンドなどを想像するが、芹沢研究部長はそうした要素を「受動的なもの」と分類。それ以外に、注視行動やインタラクティブ機能など「能動的な要素」も必要だという。

 通常、人間は会議の中で特定の人に意識を集中して声を聞いたり、ざわつくパーティー会場で自分を呼ぶ声だけを聴いたり、その声の主の方向を判断することもできる(カクテルパーティ効果)。こうした人間の持つ「その事象に集中できる感覚」を技術で再現することで、“より正確な情報の獲得”、ひいては“没入感の向上”に繋がるとする。

臨場感の向上には、能動的な要素も欠かせないという 新たなコミュニケーション手段の創造に向けた取り組みでもある

 また、「ニーズの有無」を問われると「この技術だけで凄いヒットを生むことにはならないかもしれないが、新しいニーズを見つけるためにも、種をまく必要はあると考えている」と答え、同技術の持つ可能性の豊富さをアピール。今後の目標として映像/音声認識技術のレベルアップや、能動的なメディア処理サービスの実現などを挙げ、実用化目標を2012年とした。

 次世代オーディイオコーデックの標準規格として策定作業が進められているMPEG-SAOCにも、同技術の一部のが“セパレーションメタデータ”として採択されることが決定しているという。複数の音源を送信するフォーマットで、各音源のレベル調整が可能になるようメタデータを送る規格だという。今年の10月に最終ドラフトがまとまり、2009年春にインターナショナル・スタンダード化される見込み。

 なお、この技術は奈良先端科学技術大学院大学との産学連携により開発されたもので、9月30日から幕張メッセで開催される「CEATEC2008」の超臨場感コミュニケーション産官学フォーラム(URCF)のブースにも出展されるという。

□NECのホームページ
http://www.nec.co.jp/
□ニュースリリース
http://www.nec.co.jp/press/ja/0809/2502.html

(2008年9月25日)

[AV Watch編集部/yamaza-k@impress.co.jp]


00
00  AV Watchホームページ  00
00

Copyright (c)2008 Impress Watch Corporation, an Impress Group company. All rights reserved.