トピック

AIでAVアンプに革命を! ヤマハ「SURROUND:AI」驚きの中身とサウンド

ここ数年、AVアンプは変化の時代を迎えていた。Dolby Atmosなどのオブジェクトオーディオへの対応や、ハイレゾネットワーク再生などの多機能化、4Kへの対応等々。近頃はそうした変化も一段落した……と思いきや、実はそうではない。AVアンプの歴史において、革新的な技術が今年登場したのをご存知だろうか。ヤマハの新製品に搭載されている「SURROUND:AI」(サラウンド エーアイ)がそれだ。

「SURROUND:AI」を搭載、今回の試聴でも使った9.2ch「RX-A2080」

“AI”と言うと、声で操作でき、ユーザーの生活を便利にサポートするスマートスピーカーを連想する。AIをAVアンプに入れるとどうなるのか? 疑問に思う人も多いだろう。だが、実際に使ってみると、間違いなく「これが新時代のAVアンプだ!!」と確信する、驚きの効果が実感できた。

なお、「SURROUND:AI」を搭載したAVアンプは12月時点で7.1ch「RX-A1080」(約14万円)、9.2ch「RX-A2080」(約20万円)、11.2chプリアウト対応の9.2ch「RX-A3080」(約28万円)、11.2ch AVプリアンプの最上位「CX-A5200」(30万円)と、4機種に搭載されている。最上位だけでなく、10万円台の購入しやすい製品から使えるのは嬉しいポイントだ。同時に、ハイエンドセパレートAVアンプのユーザーにも、要注目の機能と言える。

7.1ch「RX-A1080」
9.2ch「RX-A3080」
11.2ch AVプリアンプ「CX-A5200」

SURROUND:AIが必要な理由

「SURROUND:AI」とは何か……の前に、ヤマハのAVアンプに搭載されている「シネマDSP」について軽くおさらいしておこう。その方がSURROUND:AIを理解しやすいからだ。

シネマDSPには「コンサートホール」や「ライブハウス」など、様々な音場プログラムがある。これらのプログラムは、「響きを加えたりして広さを演出するもの。元の音をいじっているので音質が悪くなる」と誤解している人もいるかもしれないが、実はまったく違う。シネマDSPは、元の音源には手を加えていない。音源の成分から別の空間の初期反射音を作り出し、それを再現する技術の事だ。

初期反射音とは、その名の通り、出力された音が部屋の壁などにあたり、反射して戻ってくる“最初の反射音の群”だ。そして、その後ろに長く続くのが“残響音”。部屋で聴く限り、初期反射音は必ず発生する。それを“変える”のがシネマDSP。狭い部屋で聴いていても、もっと広い空間で聴いているような音を再生できる。例えば、シアタールームでもない普通のリビングにAVアンプを設置していても、広いシアタールームで聴いているような音が楽しめてしまう……という、かなり“使わないともったいない”機能なのだ。

音源の成分から別の空間の初期反射音を作り出し、加算するため、元の音源から音は引き算されない。そのため、コンテンツに収録された雰囲気を残したまま、違う音場の生成が可能になるわけだ。

特定の空間の再現だけでなく、「Sci-Fi」や「ドラマ」、「スペクタクル」など、コンテンツのジャンルに合わせて、それに最適なシネマDSPのプログラムをヤマハは充実させてきた。ユーザーが自由に選び、より臨場感のあるサラウンドを楽しむのがヤマハAVアンプの醍醐味だったわけだ。

AVアンプのアプリ画面。左にズラッと並んでいるのがシネマDSPのプログラム、これとは別にSURROUND:AIが使えるようになった。SURROUND:AIのON/OFFは、アプリからも制御可能だ

だが、ここには2つの課題があった。1つは「今再生しているコンテンツに適したプログラムが何か、ユーザーが判断しなければならない」という事。2つ目は「1つの作品に対して、1つのプログラムで対応しなければならない」という点だ。

1つ目はまあ、ユーザーがプログラム選びに慣れれば解決できそうだ。問題は2つ目だ。例えば、ド派手なアクション映画を観るとしよう。左右の広がり感を重視し、明瞭な音で、力強い空間を再現する「アドベンチャー」プログラムを選んだとする。だが、アクション映画とはいえ、映画の最初から最後までドカンドカンとアクションシーンだけ続くわけではない。登場人物が静かに喋るだけのシーンだったり、BGMだけのシーンもある。そうしたシーンでは、別のプログラムの方が適しているかもしれない。理想を言えば、1つの作品を1つのプログラムでフォローするのではなく、“シーンごとに適したプログラムを適用したい”というわけだ。

「作品ごとではなく、シーンごとに、違うシネマDSPプログラムを適用できないかというアイデア自体は、10年ほど前からありました。しかし、どうやってそれを実現すればいいのか。技術や時間の問題で、なかなか手が出せない課題でした」と語るのは、SURROUND:AIの生みの親、AV事業推進部 AV商品企画グループの湯山雄太主事だ。

AV事業推進部 AV商品企画グループの湯山雄太主事

「私は3年ほど前まで、ハイエンドAVプリ・CX-A5100で、Dolby AtmosとシネマDSPの掛け合わせを担当していました。それが完成した後、研究開発へ異動したのですが、そこで“次世代の音場技術を考えてくれ”とテーマをもらいました。そこで、この課題に取り組もうと考え、まずは映画のシーンをどう解析するかに取り掛かりました」。

「最初に考えていたアイデアは、実際にトライするとうまくいかず、大きな手法の変更が必要でした。そこで、新しい機械学習テクノロジーを使ったところ、うまくいきそうな手応えがあり、突き進みました。そこまでに1年ほどかかりました。試行錯誤の繰り返しでしたね」(湯山氏)。

AIに映画のシーンと、それに適したプログラムをひたすら教え込む

湯山氏によれば、映画のシーンにおけるサウンドは、大きく、セリフが重要なシーン、環境音やBGMが重要なシーン、効果音が重要なシーン、爆発など迫力あるシーンに分けられるという。これをもとに、膨大な映画を鑑賞。俯瞰的に見ながら、どのシーンに、どのプログラムが適しているのか、ラベル付けをしていったという。

「ひたすら映画を見ました。“この作品の30分10秒から、30秒まではドラマプログラム”などとメモをとりながらですので、1本観るのに4、5時間かかります。ですから“必ず1日1本観る”などと決めながら何度も巻き戻しながらラベル付していきました」。

湯山氏は、そうして作成した膨大なデータをAIに教え込んでいく。AIは、0.2秒ごとにマルチチャンネル信号の音の特徴量を抽出。シーンの変化を検知する。そして事前に作成したモデルデータベースを参照し、どんなシーンなのかを判断する。しかし、“どのシーンに、どのプログラムか適しているか”はAIにはわらかない。そこを人間がサポートする形だ。

AIというと、クラウドを使い“機械が勝手に学習してどんどん賢くなる”というイメージがある。しかし湯山氏が採用したのは「こういうシーンは、このプログラム」と、人間が教え、賢くしていく、教師あり学習を用いたAI。判断軸をひたすら教え込んでいくわけだ。

「シーンによっては、判断が難しいものもあります。そうした場合は、判断軸がブレてしまうので、データベースから排除します。判断は0.2秒と、リアルタイムかつ高速で行なっているので、あるフレームでは別の判断をしてしまう事もあります。そうしたノイズも、人間が判断し、これは違うよと選別していきました」。

「AIの構造としては、判断にばらつきがあった場合、過去数フレームの情報も踏まえて、内部で判断結果を多数決し、最終的な判断を下すようにしています」。

「0.2秒というのも、試行錯誤で決めた数値です。これが長いと、違和感に繋がります。例えば、シーンの判別に数秒かかったとすると、シーンが変わってから、音場効果が適用されるのが数秒後になってしまいます。そうすると、人間は明らかにズレを感じます。しかし、頻度が短すぎてもサウンドの特徴がとれない。特徴が解析でき、なおかつリアルタイムに音場を追従させていける最適な長さが0.2秒だったのです」。(湯山氏)

こうした地道な試行錯誤でAIを育て、正答率を高めていく。数値だけで判断するのではなく、最後は耳でチェック。湯山氏と藤澤氏が、実際にAIが判断し、音場効果を適用したサウンドを聴き、不自然なところはないかなどをチェック。完成度を高めていく。

素朴な疑問として、シーンの移り変わりの判断に“映像の解析”を使えば楽なのでは? と考えたが、湯山氏によれば、映像が変わっても音が変わらない作品も多く、逆に映像解析を加えると、判断を惑わす要因になるという。

SURROUND:AI用に、音場効果を新規に開発

賢くなったAIが、シーンを判別し、最適な音場効果を創り出す。だが、SURROUND:AIのミソは“判断”だけではない。新たにSURROUND:AI用に、それぞれのシーンに最適な音場効果が新規に開発された。その開発や、SURROUND:AIの実際の製品への搭載を担当したのが、AV開発部ソフトグループの藤澤森茂主事だ。

AV開発部ソフトグループの藤澤森茂主事

「従来のシネマDSPのプログラムは“1つの作品を、1つのプログラムでカバーできるように作ったもの”でした。例えば、スペクタクル音場であれば、派手なシーンでドーンと空間が広がりますが、映画の中ではセリフだけで進むシーンもあるので、そこで違和感が生まれないように、ある程度“全体のバランスをとって”最初から最後まで破綻なく聴けるように作っていました」。

「それに対して、SURROUND:AIはシーンごとに最適な音場効果を適用します。例えば、空間を見渡すようなシーンに向けて、見通しの良さを重視した音場を作り込んだり、セリフが大事なシーンに向けて、画面の奥行きをしっかり描く音場にして、スクリーンにセリフがきちんと乗るようにする。“今は派手なシーンだ”とわかれば、我慢せず、好きなだけ効果を出せます。壁を取っ払ってしまうような音場まで適用できる。既存のプログラムよりも、より幅広いレンジで表現できるわけです」(藤澤氏)。

今まで培ってきたプログラムを使わず、新たな音場効果を作るには、当然手間やコストもかかる。しかし、あえてそうしたのは「今までの体験を超えるため」だと藤澤氏は言う。

「従来のプログラムを切り替えていくだけでは、今までの体験を大きくは超えられません。大切なのは“最終的にどんな体験をお客様に提供するのか”という事。AIが判定したシーンに応じた音場効果のあるべき姿について湯山氏と議論を重ね、音場効果がより発揮できるよう、深みを出せるように開発しました」。

「開発は本当に大変でした。6カ月ほどかかりましたが、途中で3回大きく方針転換し、浜松と東京のスタジオを何度も往復して作りました。単純に効果の量を増減させるだけではなく、全てのパラメーター、アルゴリズムの設計まで見直しています。効果を強くするだけですと、例えば、聴いていると疲れる音になってしまったり、シーンによって登場人物の声が変化してしまう。そうした事が起きないように、試行錯誤しながら作り込んでいきました」(藤澤氏)。

音場効果のシームレスな切り替わりにもこだわり

シーンをリアルタイムに解析し、それにマッチする音場効果を創り出す。凄い技術だが、「頻繁に音場をコロコロ変えたら、音が変にならないのか?」という疑問も浮かぶ。シーンとシーンの“切り替わり部分”はどう処理しているのだろうか?

藤澤氏は、「まさにその通りで、単なる切り替えでは違和感が生じます。シーンの変化にあわせてどのように移行していくのかは、ノウハウのカタマリです」と言う。「違和感を減らすための手法として、例えば、切り替わるタイミングに向けて、2つ音場を走らせて、現在の音場のエフェクトレベルを徐々にフェードアウト、それと同時に次の音場をフェードインさせる“クロスフェード”というアイデアもありました。しかし、前後で音場の広がりが大きく違う場合などでは、切り替わりがわかってしまうため、この手法は使いませんでした」。

「そこで、映画のシーンが切り替わるのに合わせて、音場は重ねずに、移り変わりが急峻にならないように切り替えています。その際も、切り替えポイントを気付かせないようにスーッと変えています。フェードアウトのカーブと、フェードインのカーブは同じではなく、微妙に変えています。工夫する事で、シーンが目まぐるしく変わっても、自然に聴こえるようになっています」(藤澤氏)。

切り替えの所要時間もミソだ。「開発当初は“切り替え時間も短くすればするほどいいだろう”と考えていたのです。しかし、実際にやってみると逆効果でした。空間が一瞬で変わると、人の耳は気づいてしまいます。評価実験を重ねた結果、ある閾値以内であれば時間を長くしたほうが違和感無く切り替えできるということがわかりました」(藤澤氏)。

実際に聴いてみる

ではSURROUND:AIの効果が実際どのようなものか、聴いてみよう。使用したAVアンプは価格と音質のバランスが抜群の「RX-A2080」(約20万円)だ。選んだシーンは「アナと雪の女王」の終盤、雪の中をクリストフが相棒のトナカイ・スヴェンと疾走するシーンと、ハンス王子に剣を向けられたエルサをかばい、アナが氷像になり、そしてその魔法が解けるまでのシーン。

音質のバランスが抜群の「RX-A2080」を使ってSURROUND:AIを体験

SURROUND:AIを使わないストレートデコードの状態で一度鑑賞、次に、SURROUND:AIをONにして鑑賞した。

差は歴然だ。吹雪のシーンでは、うねるような風の音と、ビチビチ、サラサラと吹き付ける雪の粒が乱れ飛ぶサラウンドだが、その空間がSURROUND:AIの方が広く、深い。ストレートデコードでは“部屋の中が吹雪になる”感じだが、SURROUND:AIでは部屋の壁が無くなり“本当に屋外で吹雪にまかれたような恐ろしさ”がある。

その中を、トトットトッと疾走するトナカイの足音。音の移動感も、SURROUND:AIの方が優秀だ。

なお、SURROUND:AIがシーンをどのように判断しているのかわかりやすいよう、メニューを操作し、SURROUND:AIアイコンを画面の左下に表示しながら鑑賞したが、吹雪のシーンではアイコンの全周に青白い光が出る。逆に、周囲が静かで足音やセリフがセンターに定位するシーンでは、すぐにアイコンの光も上部に集まる。シーンが切り替わると、その特徴を検出し、音場効果を反映させる、一連の動作をしっかり行なっているのが目でも確認できる。

SURROUND:AIがどのように動いているかを示したアイコン
各シーンに最適な音場効果によって、このように表示が変化する

木造船が風にあおられ、「ゴゴゴゴ」ときしむ重い音の迫力もSURROUND:AIでアップする。でも、常時低音が強調されているわけではない。迫力のあるシーンだと判断した時だけだ。

世界が凍りつき、静寂に包まれるようなシーンでも、SURROUND:AIはそれをしっかり検出。ON/OFFで聴き比べると、凛とした静寂の空間が、SURROUND:AIではより広大に描写されているのがわかる。その空間でキャラクターが喋るセリフの音像も、SURROUND:AIの方が奥行きがあり、リアルでドラマチックだ。

驚いたのは、吹雪がゴォゴォと吹き荒れる中で、アナが寒さに耐えかねて「アァ……」とういうような、声にならない、うめきを漏らすシーン。吹雪はまだ吹き荒れており、セリフというか声にもなっていないうめきなのだが、AIのアイコンを見ていると「吹雪が全体を包んでいるシーン」ではなく「お! セリフに注目だ」と、音場効果を変えた事がわかる。

「イノセンス」で、バトーとトグサがヤクザの事務所に殴り込みをかけるシーンも面白い。いきなり現れたバトー&トグサに、ヤクザの面々が固まるシーンは非常に静かなのだが、バトーが軽機関銃をぶっ放すと、音がそこらじゅうで爆裂。そしてまた静寂と、めまぐるしく音が変化する。SURROUND:AIがそこにしっかり追従しているのがわかる。

もともと迫力のあるシーンだが、SURROUND:AIをONにして聴くと、乱れ飛ぶ銃弾と、薬莢が落ちるキンキンした鋭い音の乱舞で、凄いを通り越してもう“怖い”。それと同時に、押井守監督作品らしい、銃器の音のリアルさへのこだわりも、改めて実感する。

映画だけでなく、音楽、アニメ、バラエティにも

SURROUND:AIが、特に得意とする作品、苦手な作品はあるのだろうか?

藤澤氏は「開発に2年以上かかっていますので、その間に登場した特徴的な作品、例えば“ラ・ラ・ランド”でも、SURROUND:AIで全編を通して楽しめるように、調整時に何度も視聴して確認しました。SURROUND:AIに苦手なジャンルというのは特にありません。映画でも、音楽でも、バラエティでも、どんなソースにも使っていただけます。ミュージカル映画は“映画なのか音楽なのか”難しい部分もあるのですが、そういった作品でも気持ちよく楽しんでいただけるよう気をつけて作りました」。

湯山氏は、「苦手というわけではありませんが、ステレオの音楽コンテンツにはSURROUND:AI以外にも様々な楽しみ方があると考えています。ピュアに2chで楽しむのか、ホール系の音場で、有名なホールを再現して楽しむ、BGM的に楽しむ……などですね」と言う。

そんな湯山氏がSURROUND:AIで楽しんでほしい作品は、映画では特に冒険もの。「例えば“ハリーポッター”や“ロード・オブ・ザ・リング”などは、特にSURROUND:AIの良さがわかりやすく、オススメですね」。

「シーンによる変化が激しく、切れ目がハッキリしているのでアニメもオススメです」と藤澤氏。「大作アニメは効果音の入り混じり方、BGMの展開の仕方、声の質感など、凄く綿密に音が作り込まれているので、SURROUND:AIでそれを味わって欲しいですね。例えば“進撃の巨人”は、開発中に何回も観ました。立体機動装置で空を飛びますが、それが頭上を飛ぶ移動感がしっかり出ているところや、激しい音が飛び交う中で、巨人に食われて瞬間的に音が無くなったと思ったら、次の瞬間BGMがバーン! と入ってくるところなど、ガラッとシーンが変化する場面が聴きどころです」(藤澤氏)。

“シーンの切り替わりによる音場の変化”、“シーンにマッチする音場”にこだわりぬいて開発してきた湯山氏と藤澤氏だが、そのせいで「休日に映画館で映画を観ている時も、このシーンはどういう音場か、それにはどういった音場効果が合いそうかなど細かい部分と、それをホームシアターでどう表現すると臨場感が伝わるかなどに気がいってしまう時があります」(湯山氏)と笑う。

逆に藤澤氏は、“AIに教えられた部分”もあるという。「例えば “アバター”で、翼竜が羽ばたくシーン。キャラクターは無言ですが、大きな翼竜は“バサッバサッ”、小さな翼竜で“パサパサッ”と羽音が交錯する。羽音の違いがしっかり作られていて、SURROUND:AIはそれを異なるシーンと認識しました。その時に“あ、このシーンは言葉ではなく、羽音で会話しているんだ”と気付きました。羽音にもちゃんと感情が込められていて、映画が作られているというのを、AIに教えてもらった気がしましたね」。

ユニークなところでは、“SURROUND:AIが動いている様子を、どうやってユーザーにわかりやすく見せるか”も悩んだところだという。「SURROUND:AIは、ずっとONで使っていただけるような自然な効果に仕上がりました。ですが、逆に自然過ぎるので、新機能なのにアピールが難しいのです(笑)」(湯山氏)。

「そこで、左下にAIがどのように音場を解析しているかを示す、インジケーターを表示できるようにしました。リアルタイムにすばやく、シームレスに動いているのを、皆さんにお見せしたかったのです」(藤澤氏)。

「SURROUND:AIというネーミングも、技術部では開発時“シネマDSP HD3(キュービック)”など、従来から引き継いで“シネマDSP◯◯”などをイメージしていました。しかし、マーケティングや営業、企画も含めて議論した際に、『これだけ新しい顧客体験なら、違う名前でアプローチするべきだ』」という意見が多く、海外のマーケティングチームの力も借りて、意見を出し合いました。“SURROUND:AI”という名前が出た時は、皆が『あ、これだな』という納得感がありました」(藤澤氏)。

SURROUND:AIのロゴマーク

一品料理から、シェフのおまかせコース料理へ

このSURROUND:AI、高度な機能だが、嬉しい事に“かけあわせの制約”は一切ないという。例えば、Dolby Atmos音声では使えないとか、○ch以上のサラウンドでは処理が重くてOFFになるとか、そういう制限が無い。映画から2chの音楽まで、どんなソースにも上にONにして使える機能なのだ。出力側の制限も無く、なんとヘッドフォンリスニングでも利用できる。

「AIを開発した湯山が、その前にAVアンプの開発も経験していますので、AVアンプに搭載しているDSPにどのくらいの処理能力があるのかを知っていた事も大きかったです」と藤澤氏。完成したAIは、藤澤氏の手によりさらに最適化され、AVアンプへと搭載された。

藤澤氏は、「過去のお気に入り作品を、SURROUND:AIを使ってもう一度観ていただきたい。確実に、臨場感がアップし、より楽しめるようになっていると思います。ちょっと古めの作品の方が、新しい気付きがあったりして、より効果を楽しめると思います」と語る。

湯山氏は、SURROUND:AIが“シネマDSP技術の浸透”に寄与すると期待する。「我々がシネマDSPを通じて長年培ってきた音場を創り出す技術は、まだまだ一般のお客様には十分伝わっていないと思っています。SURROUND:AIにより、従来よりも簡単に、それでいて究極のサラウンド体験が得られるというのを体験し、知っていただく、機会になったらいいなと思っています」。

実際にSURROUND:AIを聴いて感じるのは“トータルでの満足度の高さ”だ。従来のシネマDSPプログラムを、“自分で選んで注文する一品料理“のようなものだとすると、SURROUND:AIは“シェフのおまかせコース料理”に似ている。食材にあわせ、それが最も美味しく食べられる料理をシェフが考え、いちいち注文しなくても、次々と出してくれる。自分の選択だけではたどり着けなかった“知らなかった美味しさ”が味わえるのもコース料理ならではだ。

なお、このSURROUND:AIを搭載したAVアンプでは、買ってきて電源を入れた際、デフォルトでSURROUND:AIが“ON”になっている。これは、今まで無かった、初めての試みだという。逆に言えば「最初からこの状態で、今後もずっと使ってほしい」というメーカーのメッセージ、そして技術に対する“大きな自信”の表れといえるだろう。

(提供:ヤマハ)

山崎健太郎