ニュース
離れた人と”空間共有”、ARで番組の中へ。NHK技研公開'21
2021年6月1日 12:25
NHK放送技術研究所は、6月1日から放送にまつわる最新の研究成果を一般公開する「技研公開2021」をオンライン上で開催。このなかで、離れた場所の人と一緒にAR・VRコンテンツを体験できる「空間共有コンテンツ視聴システム」、テレビ映像と同期する自由視点ARと視点に連動した音を使った「AR技術を活用した番組への没入体験」を紹介している。
空間共有コンテンツ視聴システム
空間共有コンテンツ視聴システムは、ヘッドマウントディスプレイ(HMD)で視聴しているVR映像に、遠隔地にいる相手の3次元映像が合成され、あたかも相手と一緒の空間にいるような体験ができるもの。「未来のお茶の間」の提案として、離れた場所の人が等身大の3次元映像で隣に表示されることに加え、会話や共同作業が可能な環境が実現された。
このシステムにあわせて、BS8Kの番組「見たことのない文化財」の世界を出演者と同じように追体験できるコンテンツが制作され、離れた場所の家族や友人と協力して観察したい個所に懐中電灯の光をあてたり、内部の様子を一緒に体感することで、遮光器土偶のことをより深く知ることができる。
ユーザーが装着するステレオカメラ付きHMDには、AR・VRコンテンツの映像に加え、距離センサー付きカメラで撮影された友人など一緒にコンテンツを視聴する人物の等身大3次元映像が合成されて表示される。自身の3次元映像も相手側のHMDに表示されるため、AR・VRコンテンツを一緒に観ながら、身振り手振りを交えたコミュニケーションができる。
お互いの姿の3次元映像は、距離センサー付きカメラでリアルタイムに撮影され、x、y、zの3次元座標値と色情報(R、G、B)で構成される点群データ(ポイントクラウド)として、通信経由で伝送される。
今回は没入型のVRコンテンツが表示できるビデオシースルー方式のHMDを使用。技研公開2021では、お互いにHMDを付けた姿の3次元映像が表示されているが、将来的には没入型VRでも目元の表情がわかる方式の実現や、手軽なARグラスでの利用も想定されている。
さらに今回の試作では、コミュニケーションを活性化してコンテンツをより深く楽しめるように、離れた場所にいる人どうしでインタラクティブにコンテンツを操作できる仕組みも実装。コントローラーの操作情報を相互に伝達し、お互いが見ているコンテンツの状態を同期することで、あたかも同一のコンテンツを共有して操作しているかのような環境が実現された。
将来のサービスイメージとしては3DCGモデルを移動・回転したり、拡大するなどの基本的な機能に加え、今回のように遮光器土偶に懐中電灯を当てるといった、コンテンツに特化した機能が重要になると想定しているとのこと。
また、技研公開2021ではコミュニケーションの活性化とコンテンツの深い理解をサポートする技術として、コンテンツの表現力を高めることを重視したため、「高精細な3DCGモデルは視聴前にダウンロードしておく」、「お互いの操作情報だけを通信路を介して共有する」というシステム設計が採られている。
空間共有コンテンツ視聴システム紹介ページでは、手持ちのスマートフォンやタブレットで「重要文化財 遮光器土偶」を体験できるARコンテンツが用意されており、土偶を好きな角度から観察したり、目の前の現実空間に表示することで原寸大で体験することができる。また体験の一部をキャプチャした360度動画が6月10日に公開される予定。
AR技術を活用した番組への没入体験
AR技術を活用した番組への没入体験は、テレビ画面から飛び出した映像と音響を体感できるもの。NHK技研では、これまでのテレビの枠を超えた新しい体験を実現するため、3次元モデルや空間配置情報などの3次元空間情報の伝送技術やオブジェクトベース音響技術の研究開発が進められており、これらを駆使することで「番組の世界を自由に歩き回れる没入体験」が可能になる。
紹介ページでは、自由視点ARとオブジェクトベース音響で番組の世界を自由に歩き回る没入体験として、バンド演奏のAR映像を楽しむ様子を動画で紹介。ヘッドフォンやイヤフォンを使用して視聴すると、視点に連動した音の変化やそれぞれの楽器の音色などをより楽しめる。
この没入体験では、コンテンツを構成する出演者や楽器などのオブジェクトを、それぞれ独立したデータとして多重化してストリーミング伝送。これにより、これにより、送信側でオブジェクトによってデータの送信時間間隔を変えたり、受信側で表示に不要なオブジェクトのデータを簡単に破棄したり、ユーザの操作でオブジェクトの配置をカスタマイズしたりすることも可能となっている
また今回の例では、出演者6人を30フレーム/秒、静止物4個を1フレーム/秒で伝送。全オブジェクトを30フレーム/秒で伝送した場合と比較して、合計の伝送ビットレートを565Mbsから326Mbpsへ約6割に削減できたという。
オブジェクトベース音響については、出演者(映像オブジェクト)の位置に音声オブジェクトを配置。人の立体的な音の聞こえ方を再現するバイノーラル技術により、タブレットの位置に応じて音の大きさや聞こえる方向を変化させる信号処理を行なうことで、タブレット端末が出演者に近づくと聞こえてくる音が大きくなり、別の方向を向くと聞こえてくる音の方向も変わるため、実際にコンテンツの3次元空間を歩き回っているかのような体験が味わえる。
これらの技術は放送と通信を融合させたサービスのひとつとしての実用化が目指されている。高精細な映像を提供できる反面、視点がひとつに限られるスーパーハイビジョンに対し、視点の自由度を通信で補うことでコンテンツの表現空間を3次元に拡張、放送だけでは難しかった新たなコンテンツ視聴体験が提供できるとのこと。