|
日本電気株式会社(NEC)は25日、複数の人物が話している映像の中から、特定の人物の声や映像のみにフォーカスする「能動的メディア処理技術」の研究開発に着手したと発表した。2012年の実用化を目指しているほか、この処理技術の一部は、次世代オーディオコーデックの標準規格であるMPEG-SAOCへの採択が決定しているという。 例えばビデオ会議やパーティー会場など、多くの人が同時に話しているような映像から、1人の映像/音声のみを抜き出し、スピーカーで再生する際にその音像を好きな位置に配置できるという技術。人間の声だけでなく楽器にも使えるため、“オーケストラからピアノだけに注目して聴く”といったことも可能になるという。ただし、既存の映像の中から抜き出すことはできず、専用のシステムで撮影や中継した映像のみで利用可能。
この技術は、以下の3つの技術を組み合わせて実現している。
デモンストレーションは5人の会議で行なわれた。会議の様子をビデオで撮影しつつ、28個の小型マイクを内蔵した試作マイクで録音する。録音した音声には5人の声が混在しているが、「独立成分分析」という処理を用いて、時間変化する音響信号の周波数と位相の変化を考慮して分析。5人の声に分離できるまで演算処理を繰り返し、別々の音声信号として出力する。 さらに、映像から顔認識技術を使い、喋っている人の位置を推定。28個の小型マイクに届いた音の違いを処理することで、音がした方向も判断できるため、認識した人物と、その人物がいる場所から届いた声をマッチングできる。これを統合処理することで、会議中の5人の中から1人を選ぶと、その1人の音声と映像がクローズアップされ、他の人の会話音量が低下。その1人が何を話しているかが明瞭に聴き取れるという。 音声の分離は、喋り方などから個人を認識しているのではなく、あくまで周波数の違いで抽出する。そのため、例えば「同じような低い声の男性が、極近い隣同士の席に座っている」という場合には声の分離や、分離した声の顔検出映像との紐付けの難易度が高くなるという。
なお、こうした顔情報と紐付けされた音声は、自由な音像配置技術を介して再生される。バーチャルサラウンド技術などでも使われるもので、両耳までの届く音の周波数特性である頭部伝達関数を用いて、音響信号の周波数特性を変化させることで、任意の場所から聞こえてくるように再生できる。これらの技術を組み合わせることで、5人の会議から、聴きたい人の声をピックアップし、その人の顔を拡大表示する……というシステムが実現する。
具体的な利用イメージとしては、ビデオ会議の高機能化、監視システムへの応用、議事録システムへの活用、補聴器などへの活用も視野に入れているという。ほかにも、コンサート映像を視聴する際に、チケットに応じた視聴位置で聞こえる音を自宅鑑賞時に再現したり、多数のカメラを使い、空間的に自由な視点から視聴できる未来のテレビが実現した際に、サッカーのピッチの中やゴール前など、カメラが置けない視点からの映像/音声の再現などにも活用できるとする。
■ MPEG-SAOCへ採択決定
共通基盤ソフトウェア研究所の芹沢昌宏研究部長は、この研究開発に着手した理由を「AVコーデックやAV機器の臨場感の向上や、臨場感のあるコミュニケーションに向けた取り組みの一環」と説明する。臨場感の向上と言うと、一般的には画面の大型/高精細化や立体表示、多チャンネルサラウンドなどを想像するが、芹沢研究部長はそうした要素を「受動的なもの」と分類。それ以外に、注視行動やインタラクティブ機能など「能動的な要素」も必要だという。
通常、人間は会議の中で特定の人に意識を集中して声を聞いたり、ざわつくパーティー会場で自分を呼ぶ声だけを聴いたり、その声の主の方向を判断することもできる(カクテルパーティ効果)。こうした人間の持つ「その事象に集中できる感覚」を技術で再現することで、“より正確な情報の獲得”、ひいては“没入感の向上”に繋がるとする。
また、「ニーズの有無」を問われると「この技術だけで凄いヒットを生むことにはならないかもしれないが、新しいニーズを見つけるためにも、種をまく必要はあると考えている」と答え、同技術の持つ可能性の豊富さをアピール。今後の目標として映像/音声認識技術のレベルアップや、能動的なメディア処理サービスの実現などを挙げ、実用化目標を2012年とした。 次世代オーディイオコーデックの標準規格として策定作業が進められているMPEG-SAOCにも、同技術の一部のが“セパレーションメタデータ”として採択されることが決定しているという。複数の音源を送信するフォーマットで、各音源のレベル調整が可能になるようメタデータを送る規格だという。今年の10月に最終ドラフトがまとまり、2009年春にインターナショナル・スタンダード化される見込み。
なお、この技術は奈良先端科学技術大学院大学との産学連携により開発されたもので、9月30日から幕張メッセで開催される「CEATEC2008」の超臨場感コミュニケーション産官学フォーラム(URCF)のブースにも出展されるという。
□NECのホームページ
(2008年9月25日) [AV Watch編集部/yamaza-k@impress.co.jp]
Copyright (c)2008 Impress Watch Corporation, an Impress Group company. All rights reserved. |
|