本田雅一のAVTrends

203回

ソニーが仕掛ける高画質化プロセッサの“ゲームチェンジ”

ソニーの新しい高画質プロセッサ「CognitiveProcessor XR」

CognitiveProcessor XRはトレンドを変える分岐点

オンライン開催されたCESで、ソニーが発表したCognitiveProcessor XR(以下、XRプロセッサ)。そのコンセプトはすでに本誌でもお伝え済みだが、掘り下げて取材を進めていくと映像処理における技術トレンドを大きく変える考え方が導入されていることが見えてきた。

プロセッサというと「処理能力は?」という質問へとつながりがちだが、実はXRプロセッサに関しては単純な処理能力の向上が大きなニュースというわけではない(実際には信号処理スループットは従前のX1 Ultimateに比べ2倍程度に引き上げられているようだが)。

処理能力の向上という観点で言えば、フルHDに比べて4Kなら4倍、8Kならば16倍の処理能力が必要となり、さらに毎秒120フレームを視野に入れるとさらに2倍という信号処理スループットが必要だ。

無論、半導体技術の向上とともに規模を増やすことは可能だろうが、XRプロセッサは映像処理プロセッサとしての考え方を変えることで、同じ世代の半導体技術でも、より高い画質を得られる新しい考え方を導入している。

忠実再現と高画質処理

XRプロセッサのコンセプトについて話を進める前に、少しばかり昔話を交えながら「高画質プロセッサがなぜ必要なのか」について説明しておきたい。

そもそも“高画質処理”は必要なのか? という疑問を、ストイックに画質・音質を追求するAVファンの中に持つ方もいることだろう。高画質処理を行なうということは、元信号に対してなんらかの処理を行なう(改変する)ことを意味しているからだ。

テレビ番組であれ、ストリーミングや光ディスクなどで届けられる映像作品であれ、なんらかの基準モニターを用いて映像が作られている。言い換えれば基準となるモニターと同じ特性を再現すれば、表現者の意図を完全に再現できるわけだ。

しかし表示装置の性能や精度、バラつきを追い込んだとしても、視聴環境までは揃えることができない。一般家庭で照明を落としたダークルームを想定して絵作りはできないわけで、家庭内のさまざまな環境で心地よい映像に調整する必要がある。

さらに言えば、自然界の光を全て捉えて記録、伝達しているわけでもなく、映像を捉えるカメラにも性能面での制約は当然ながら存在する。HDR映像が普及し、4K映像では色再現域も拡大されているとはいえ、現実の景色と記録されている映像には差分があることには変わりはない。

それが“作品”ならば、作品として完成された表現を再現するべきだが、生放送や作品として映像表現を行なっているわけではない一般のテレビ番組の場合は、何らかの映像処理を行なって現実に近い映像への復元を試みることには意味がある。

XRプロセッサが挑戦した“人の感覚を模倣した”重みづけ処理

こんな話を長々と書いたのは、映像処理プロセッサは忠実な映像表現を目指す方向でも進化してきたものの、商品力を高めるアプローチとしては“現実感を増すための高画質信号処理”として90年代以降は進化してきた経緯があるからだ。

初期のデジタル処理による高画質プロセッサの発想は、より高性能なカメラで撮影した映像と放送されている映像の差分を取り、映像のパターンごとに原信号と放送されている映像信号の違いをまとめ、原信号に復元するための映像処理を行なうというものだった。

その後、この考え方はシーンごとに映像タイプを分類し、それぞれに適した映像処理を行なう手法へと変化。さらには領域ごとに適しているであろう映像処理を判別、あるいは被写体のタイプを類推して映像処理を変えるなど、映像処理を最適化する対象を徐々に絞り込んでいくようになった。

その間、解像度が向上したことで超解像処理が行なわれるようになったり、デジタル放送特有のノイズ処理が重要度を増したり、あるいは色再現域の拡大を生かすために圧縮された色空間の復元、同様にダイナミックレンジの表現力拡大を生かす復元処理なども加わったが、それらは“キャンバスと絵の具の進化”に合わせて、旧来の映像を最新のキャンバスと絵の具に置き換えて映像を描き直す機能だった。

現行ブラビアで搭載している高画質プロセッサ「X1 Ultimate」では、被写体に応じて、最適に高精細化する「オブジェクト型超解像」や、被写体に応じてコントラストを向上させる「HDRリマスター」などが搭載されている

もちろん、それらも重要ではあるが、どの処理を行なうにしても、画像全体をどのように評価し、適切な映像処理を行なうのかという、処理前の判別、識別のプロセスがもっとも重要になる。

ソニーホームエンタテインメント&サウンドプロダクツ TV事業本部 商品企画部 統括部長の鈴木敏之氏は「ひとが映像を見るようにBRAVIA XRは映像を観ています」と話す。

ひとは視野の中にある像をすべて同じように意識、認識しているわけではなく、着目している、言い換えれば脳が“ここ”と集中している像に対し、より多くの情報を取り込む。XRプロセッサは、このひとの感覚と同じように被写体を認識し、より多くの処理能力を割り当てるというのだ。

XRプロセッサでは、ひとの注視点に応じて最適な画質処理を行なう

主役が引き立つ映像表現

XRプロセッサの特徴として挙げられている「コグニティブ」という言葉は日本語では「認知的」と訳される。この言葉を最初にAIジャンルで使い始めたのはIBMだったと記憶しているが、認知をしているのではなく“認知的”な振る舞いをするという意味だ。コンピュータは認知をプログラムできないため、そういう意味では“的”という表現は正しい。

一方でコグニティブという言葉には、認知しているかのようなシズル感も感じさせる。

まあ言葉遊びはどちらでもいい話だが、ソニーとしてはXRプロセッサを用いることで、かなり細かな部分まで、被写体のタイプを識別しようとしていることは理解できる。

鈴木氏は「従来も顔は認識していましたが、目や髪の毛といった単位では識別しておらず、顔全体に対して満遍なく同じ表現を行なっていました。しかし、XRプロセッサでは被写体が何なのかを類推し、その被写体を際立たせるために多くの処理能力を割り当てます」と、そのコンセプトの根幹について話す。

ソニーホームエンタテインメント&サウンドプロダクツ TV事業本部 商品企画部 統括部長の鈴木敏之氏(写真右)

「もちろん、映像は人物のクローズアップだけではありません。XRプロセッサは、シーンが変化する中で、ひとがどのように注目する被写体を追いかけるのかを考慮しながら注目している点を追いかけ、適切な処理を行ないます。また、テロップや顔など、さまざまな被写体のタイプを識別し、それぞれに対して処理を行ないます」(鈴木氏)。

例えば、スポーツ競技の放送ならば、選手の動きはもちろん着目している点として重点的な映像処理の対象となるが、それとは別にテロップに対しては適切な処理が行なわれる。

さらには一つの画面に複数の被写体がある場合でも、それぞれに適切な処理を行なった上で、主な被写体と思われる人にフォーカスを当てようとする。

こうした処理により、本来、見て欲しい部分への意識が高まり、また多くの処理能力が割り当てられることで主役が引き立つ映像表現が行なえる。

オンライン会議ソフトの“背景置き換え”に近い精度で被写体を認識

では、どの程度の精度で被写体を認識しているのか。

従来の映像プロセッサはマス目単位でしか、処理の単位を切り替えることができなかった。ところが、鈴木氏によると「オンライン会議ソフトの背景置き換えに近い精度」で被写体を切り抜き、個別処理を行なっているというから驚きだ。

これまでは領域分割し、その領域にある映像を類推して画像処理を行なっていた。ただ、ブロック単位(正方形または長方形)で処理をするのでは、とてもではないが“被写体を認識”とは言えない。

しかし、きちんと被写体を切り抜いて映像処理を行なうとしたら、追い込めるレベルは数段前に進む。しかも、被写体の像を切り分けることができるため、被写体の種別を判別する制度も大幅に上がっている。

これまでなら「この領域にはフルーツがあるようだ」といった大まかな認識しかできなかったところ、「ぶどう」「りんご」「りんごの切り身」などを識別し、それぞれに細かく分類された最適な映像処理が施される。もちろん、テロップなどの人工的な部分も例外ではない。

細かく識別し、“切り抜いた像”単位で映像処理プロセッサが仕事をするため、映像処理が的確になるだけではなく、解像度のアップコンバートやノイズ処理でも有利になる。低解像度の質が低い動画を映すときの方が、より前世代プロセッサとの差がわかりやすくなるほか、地上デジタル放送のように圧縮ノイズが多く、積極的な処理を行ないにくい映像ほど差が付きやすい。

画面を数百のゾーンに分割した上、ゾーン内の個々のオブジェクトに対し、焦点や色、コントラストなどを詳細に認識。ひとの脳が機能するのと同じように、1秒で画像を構成する約数十万の異なる要素を相互分析することができるとする

“即時性重視”の映像ソースからリアリティを引き出す

高画質なディスプレイ、テレビというと、とかく“高忠実性”に偏った評価が行なわれることが多い。

4K/HDR/BT.2020といった、高精細かつダイナミックレンジ、色再現域が広い映像ソースが当たり前になっていく中で、作品として仕上げられた映像をクリエイターの意図通りに再現できるディスプレイを作ることは基本中の基本だ。

再現性を磨き込んだ画質モードを、適切な(照明を落としめにした暗い部屋など)環境で観る時の画質を追求するならば、この基本をひたすら磨き込めばいい。作品を楽しむための投資ならば、そこは惜しまない方が良い。

ということで、テレビの評価記事はどうしても作品として作り込まれた映像の表現力、正確性に偏った評価になりがちだ。ところが、実際にテレビを使っている時間は、バラエティや情報番組、ニュースなどをなんとなくみている方がずっと長い。また照明をある程度以下に落とした環境で見ることもほとんどない。

つまり映像を規格通りに再現する画質モードを磨き込んでも、活躍する時間、場面は限られているということだ。そこで近年、筆者が重視しているのが、積極的に現実の映像に近づけるよう高画質化処理を行なうプロセッサとその効能。その効果はYouTubeなどのユーザー投稿動画などでも確認できる。

XRプロセッサによる調和の取れた最適処理が、自然で現実世界のような映像を生むという

BRAVIA COREは日本でも?

さてXRプロセッサは高画質を念頭に開発されているものだが、加えて二つの視点でも新しい価値をもたらしている。ひとつはBRAVIA COREと呼ばれる高帯域・最新コーデックの高品位映像配信サービス、もうひとつは2チャンネル音声のアップミックス機能だ。

BRAVIA COREは最大80Mbpsで提供される動画配信サービスで、HEVCで圧縮された4K/HDR映像をネット経由で楽しめる。

最新映画は10本まで、旧作は2年間という制約はあるものの、ネットに接続してユーザー登録さえ行なえば、無料でUHD BD並みの映像をすぐに楽しめる。パッケージを購入が不要なことはもちろん、クレジットカードを登録する必要すらない。

映画ファンが納得するだけの情報量を提供するため、パッケージソフト並みにバックステージを記録したコンテンツも提供するなど、映画の世界を身近にするための工夫が盛り込まれている。

鈴木氏はこのサービスの意図を「せっかく4K BRAVIAを購入していただいても、その画質を完全な形で楽しんでいただけない場合もあります。そこで購入後、登録さえしていただければ、追加で何かを購入しなくともその実力を楽しめるようにしたかったのです」と話す。

BRAVIA COREのメニューイメージ

用意されるタイトルは、IMAX Enhancedのほか、テレビシリーズ、映画を含むSPEが権利を保有するタイトルだが、それらが製品にバンドルされる上、UHD BD並みの品位があるとなればデモコンテンツとして強力なだけでなく、商品そのものの魅力として十分な破壊力を持つ。

では日本ではどうか? だが、国ごとに異なる頒布権事情にはよるものの、基本的には米国での配信作品の選定基準と同じになるとのこと。つまりIMAX Enhancedタイトル+SPE制作で、なおかつ日本での頒布権が他社に譲渡されていない作品ならば、楽しめることになる。

もっとも、このバンドルサービスはあくまでも“4K BRAVIAの画質を高品位のコンテンツで観ることで、確実にユーザーの体験を高めたい”という部分にある。つまり、購入ユーザーに対するバンドルサービスであるとともに、最新映像技術に基づいた高画質を体験してもらうことで、その実力を実感して欲しいという想いが込められている。

サービスエリアの広い5.1.2アップミックスの音にも注目

最後にXRプロセッサに組み込まれたオーディオ信号処理についても言及しておこう。

XRプロセッサには、各種サラウンドの音声形式やDolby Atmosなどオブジェクト型のサラウンド形式を内蔵スピーカーだけで立体的に再現する機能を盛り込んでいる。

ほとんどのテレビ放送がそうであるように、音声はステレオ形式であることの方が多いだろうが、その場合でも5.1.2ch(最後の2チャンネルは高さ方向の情報)にアップミックス(位相成分などから方向情報を推定して複数チャンネルに分離すること)した上で、仮想的な立体音場で聞かせる。

ここで疑問なのは「座っている場所で立体的に聞こえるのか?」ということ。

仮想的な立体音場を2チャンネルのステレオは、左右チャンネルに含まれる音の位相を意図してずらすことで実現している。問題は位相はスピーカーと耳の間の距離で変化すること。つまり真正面にいない場合、左右スピーカーの位相はずれてしまい、本来の立体音場を生み出せない。

そこでリモコンに内蔵されたマイクで音声を拾うことで、リモコンが置かれている方向を検知。その方向に適した仮想サラウンドの処理を行なう。また複数で観ている可能性も考慮し、サービスエリア(聴いていて違和感を覚えない範囲)が広くなるよう工夫をしているという。

仮想サラウンドでの視聴位置は体験の質を大きく変えるが、そこにリモコン内蔵マイクを用いるというのはなかなか面白いアイディアだ。

この機能はスタンダードモードではオフになっているが、設定でオンにすることが可能だ。また、シネマやスポーツといった、より臨場感が求められる映像ソースが想定されてる画質モードでは規定値で有効になる。

このように次世代に向けての仕込みが数多く観られるXRプロセッサだが、もっとも注目したいのは、最上位モデルだけではなくある程度のプレミアム性が求められる製品シリーズすべてに採用している点には注目しておきたい。

かつてX1プロセッサにXtreme、Ultimateといった上位プロセッサが登場したように、共通コンセプトの上位プロセッサが登場し、XRプロセッサの手法をさらに推し拡げていくいくのだと推察される。

画質面だけではなく、音響面での取組も含め、他社の映像処理プロセッサにも影響を与えるトレンドの分岐点となっていくかもしれない。

米ソニーは、8K液晶テレビ「Z9J」、4K有機ELテレビ「A90J」「A80J」、4K液晶テレビ「X95J」「X90J」シリーズにXRプロセッサを搭載した

本田 雅一

テクノロジー、ネットトレンドなどの取材記事・コラムを執筆するほか、AV製品は多くのメーカー、ジャンルを網羅的に評論。経済誌への市場分析、インタビュー記事も寄稿しているほか、YouTubeで寄稿した記事やネットトレンドなどについてわかりやすく解説するチャンネルも開設。 メルマガ「本田雅一の IT・ネット直球リポート」も配信中。