プレイバック2025

空間オーディオは、なぜ今あらためて面白くなってきたのか by藤本健

藤本健

2025年12月24日 10:00

今年も一年、連載「藤本健のDigital Audio Laboratory」をご愛読くださりありがとうございました

2025年を振り返ると、AV分野では相変わらず多くの新製品や新技術が登場した。しかし個人的に強く印象に残っているのは、「まったく新しい規格が生まれた」というよりも、長年続いてきた技術や研究が、ようやく現実的な形で結びつき始めたという感触だ。

とくに空間オーディオ、イマーシブオーディオと呼ばれる分野では、その変化がハッキリと見えてきたように思う。Dolby Atmos、Apple Spatial Audio、Sony 360 Reality Audioといった言葉自体は、すでに特別なものではなくなっている。だが2025年は、それらを「どう再生するか」「どう成立させるか」という足元の部分で、静かな進展が見えた年だった。

バイノーラル技術は、決して新しいものではない

まず押さえておきたいのは、ヘッドフォンで立体的な音を再現するバイノーラル技術自体は、決して最近生まれたものではないという点だ。ダミーヘッド録音やHRTF（頭部伝達関数）の研究は、アナログ時代から続いてきた。Neumann「KU100」に代表されるダミーヘッドマイクは、その象徴的な存在だろう。

Neumannのダミーヘッドマイク「KU100」

1990年代以降は、DSPの進化とともに、Roland RSSやQSound、SRSといった擬似立体音響技術も登場した。しかし、これらは常に同じ壁に突き当たってきた。前後の定位が曖昧になること、音が頭内に定位してしまうこと、そして個人差が非常に大きいことだ。

HRTFを使えば、理論上は、立体音場を再現できる。しかし「平均的なHRTF」を前提にすると、どうしても違和感が残る。かといって個人ごとに測定するのは現実的ではなかった。結果として、バイノーラルは「技術としては正しいが、決定打にはなりきれない」状態が長く続いてきた。

個人HRTF測定が示した、一つの到達点

その流れの中で、個人的に強烈な印象を残したのが、HRTFの個人測定だ。

日本ではメディア・インテグレーションが提供している「360 Virtual Mixing Environment（360VME）測定サービス」で、測定したHRTFをSonyの360 Reality Audio向けのデータとして利用できるものだ。

筆者自身も、以前にNAMM Showのソニーのブースで行なわれていたデモや、ソニーの乃木坂スタジオでの実験的な測定を体験したことがあるが、そこで聴いた音は、それまでのバイノーラルとは明らかに質が違っていた。もう、完全に自然な空間の音であって、ヘッドフォンでの音であるとはまったく思えないもの。まさに革命的な技術だと感じた。

2023年のNAMM Show。写真は一緒に被験した江夏正晃氏

ただし、このアプローチは明確に制作向けの技術だった。

測定には設備と時間が必要で、メディア・インテグレーションのサービスを受けるには、かなりのコストがかかるため一般のリスナーが気軽に体験できるものではない。画期的ではあるが、コンシューマ向けに一気に広がる性質のものではなかった。

一方で続いてきた「フロントスピーカーで空間を作る」研究

ヘッドフォンとは別の系譜として、フロント側に配置したスピーカーだけで立体的な音場を作ろうという研究も、同じくらい長い歴史を持っている。いわゆるトランスオーラル（Transaural Audio）やクロストークキャンセルの研究は、1950〜60年代にまで遡る。

より身近なところでは、ヤマハのCinema DSP、Dolby Virtual Speaker、サウンドバーにおける反射音利用などが、その流れに位置づけられるだろう。しかしこちらもまた、設置条件やリスニングポジションへの依存が大きく、コンテンツ側もステレオ前提で作られていたため、「理論は正しいが、条件が厳しい」技術であり続けた。

6年前に記事で取り上げた技術「Dnote -LR+」は目の前の小さなスピーカーから音が立体的に飛び出すという意味で、まさに革命的と思ったのだが、すぐにマネタイズできなかったこともあり、残念ながら開発したTrigence Semiconductorは2022年に会社を畳んでしまっている。

状況を変えたのは、オブジェクトベース音声だった

この両者の停滞を打ち破った最大の要因は、再生技術ではなく、実はコンテンツ側の変化だった。Dolby Atmos、MPEG-H 3D Audio、Sony 360 Reality Audioといったオブジェクトベース音声の普及により、音は「チャンネル」ではなく「空間上の位置情報」を持つようになった。

これにより、再生環境に応じてレンダリングを変えるという発想が、ようやく現実のものになった。Dolby Atmos Rendererのバイノーラルレンダリングや、Apple Spatial Audio、Dolby Atmos for Headphonesといった仕組みは、その代表例だ。

さらに制作／検証用途では、NeumannのRIMEやdearVR Monitor、Waves Nxといったツールが登場し、「ヘッドフォンで空間を確認する」ことが現実的になってきた。

NeumannのRIME

2025年に体験した、もう一つの転換点

そうした流れの中で、2025年に強い印象を残した技術の一つが、先日のInter BEEで飛澤正人氏が発表した、新しいCrosstalk Control Technologyだ。

この技術は、古くからの研究テーマであるクロストーク制御をさらに発展させたもので、ソース音がスピーカーから出た後、左右の耳に回り込む音（クロストーク）を積極的に計算し制御することで、フロントスピーカーのみでも立体感のある定位を成立させるアプローチを採る。

この技術のベースにあるのは、かつてから知られているトランスオーラルやクロストークキャンセルといった理論だ。

しかし、Dolby Atmosのようなオブジェクトベース音声という前提が整ったことで、制御対象が曖昧な音場ではなく、明確な「点音源」になった。その結果、従来のサウンドバーや仮想サラウンドとは次元の違う後方定位や高さ方向を含む空間表現が可能になった。

初めてこのCrosstalk Control Technologyを体験したとき、そこにはHRTF個人測定で感じたのと同じ種の驚きがあった。位相トリックやごまかしではなく、脳が自然と信じてしまうような空間感だ。この体験は、平均化に基づく再生では絶対に得られないものであり、「正しく設計された物理」による説得力を感じさせた。

2025年は、完成ではなく「収束の兆し」が見えた年

2025年時点で、空間オーディオが完成形に達したとは言えない。ヘッドフォン再生ではHRTFの個人差や測定の課題が残り、スピーカー再生では設置条件の制約がある。

しかし、バイノーラル、クロストーク制御、オブジェクトベース音声という要素が、ようやく同じ文脈で語れるようになったことは大きい。

ヘッドフォンでは、Dolby Atmos for Headphones、Apple Spatial Audioといった汎用的な仕組みと、個人HRTFという究極の設計が併存しつつある。スピーカー側では、Crosstalk Control Technologyのように、古典理論を現代のコンテンツ前提で再構築する動きが出てきた。

2025年は、空間オーディオが「夢の技術」から「設計可能な技術」へと移行し始めた年だった。

2026年以降、この分野がどこまで現実的な形で広がっていくのか。長くこの分野を見てきた立場として、久しぶりに素直に楽しみだと感じている。

藤本健

リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto。