藤本健のDigital Audio Laboratory
第878回
“位相変化”でリアルな立体音響!? エンジニア発の3Dミックス技術とは
2020年12月22日 08:00
ヘッドホンで実現する3Dオーディオを追い続けている人がいる。レコーディングエンジニアの飛澤正人氏だ。
数多くのスピーカーを設置して実現するイマーシブオーディオは理想ではあるけれど、そんな環境を構築できる人は限られている。飛澤氏は誰もが3Dオーディオを楽しめるようにするには、普通のヘッドフォン・イヤフォンで使えるようにする必要がある、という思いから、どうすれば大がかりな装置を使わずに立体音響を実現できるか4年近く試行錯誤を続けてきた。そして、その結果、かなりリアルなものが実現できるようになってきたという。
飛澤氏は現在、音楽の3Dミックスに限らず、ゲームサウンドやスポーツ中継など、さまざまな分野での3Dミックスを手掛ける傍ら、その独自手法の特許出願も行ない、来年には誰でも簡単に3Dミックスができるようにするためのプラグイン開発も行なっている。
2年半前、私自身が手掛けるDTMステーションCreativeというレーベルでのVRミックスを依頼したこともあり、その状況を記事にしたこともあった。が、そこからもかなり進化したとのこと。実際どんなものなのか、その音も聴かせてもらうとともに、インタビューしたので紹介していこう。
“ディレイ”で位相変化を起こし3D音響を再現する
――改めて飛澤さんがヘッドフォンでの3Dオーディオに取り組むようになった経緯などを教えてください。
飛澤:2016年、映像がVR元年といわれた年、映像がどんどん進化し、360度回転などもできるようになりましたが、「音って、どうなんだろう?」と考えてみたのです。
サラウンドというのはあったし、2000年以降にハイレゾというのは出てきたけれど、そのメリットを享受できたのはマニアと呼ばれる人たちだけであり、それは進化といえるのだろうか。ステレオが登場した半世紀前から、まったく進化していないのでは……とショックを受けたのです。MP3のような圧縮技術は出てきたけど、聴く側からすれば進化ではなく、退化ではないかと。
――確かにYouTubeひとつをとっても、映像の容量は非常に大きくなったのに、音は圧縮オーディオのままで、その差は開く一方ですからね。でも、音の進化って、なかなかイメージしにくいです。
飛澤:VRという言葉とともに映像が3D化して進化しているのですから、音も3D化すればいいのではないか、そんな思いが発端でした。では実際、どうすれば音の3D化ができるだろうと調べてみると、ちょうど3Dパンナーなどがいろいろ出てきた時代でした。それらを使えば、3Dができるだろうと単純に考えたのです。製品説明を見ても、これを使えば立体空間を表現できると記載されているから、導入すればいいだろうと。
当時、都内の市ヶ谷にあった自身のスタジオでいろいろトライしていたのですが、どうも思った通りの立体化ができませんでした。ちょうど引っ越しを考えていたこともあったので、思い切ってVR、3Dオーディオだけのためのスタジオを新設する形で渋谷にスタジオごと移転したのです。環境さえ整えれば、思った通りの音になるはずと信じて。
ところが、いざ機材、ソフトを一式揃えて試してみたら、全然表現できなかった。ヘッドフォンで聴きながら、後ろにパンニングしてみても、全然分からないし、上下に動かしたら、もっと分からない。
――市販のソフトが何種類かありますが、それらの効果が今一つである、ということですか?
飛澤:要するにバイノーラルプロセッシングの性能が低く、しっかり認識できるレベルには到底及ばない感じだったのです。それが2017年のことでして、一時は諦めかけました。でも「いや、そんなはずはない」と思いなおしまして。
もともと僕はLRのステレオミックスをする上で、空間を作っていくことを得意としていました。この音はずっと前方、こちらはそれより一歩後ろ、二歩後ろ……というようにヘッドフォンをしていても自然な空間を感じることができるミックスをしてきたので、きっとできるはず、という可能性を感じてはいました。そこで、1つのソフトだけでは表現できなくても、現在あるプラグインを組み合わせつつ駆使すれば、なんとか後ろを表現できるのではないかと考え始めたのです。
――それが、以前DTMステーションCreativeでの楽曲、「Sweet My Heart feat.小寺可南子」のVRミックスをお願いしたころでしょうか?確かDolby Atmosのヘッドホンモニターの仕組みなどを使っていたような……。(第767回参照)
飛澤:まさにそのころですね。Dolby Atmosのミックスをする際の簡易モニターシステムがあったので、それを利用しつつ、WavesのNXZを使ったり、一番エグく感じられたのはWave Artsの「Panorama 5」(現在の最新バージョンはPanorama 6)でした。自分で納得できるレベルとは言い難い状況ではあったものの、これらを音源によって使い分けるなどして、当時自分ができる最大限の表現をしたのが、あの曲でした。
――私も当時、現在の技術でできるのは、あれが限界なのだろうと思っていましたが、そこからさらに進化したと?
飛澤:改めて立体空間ってどう表現するものなのか、という原点に戻って掘り下げていきました。LRのステレオミックスでも奥行きの表現をしていたので、それを後ろにするにはどうすればいいのか。一つの方法としてあったのは、逆位相にすること。こうすると、すごく気持ち悪いのですが、後ろ側に音がいきます。ミックスの常識からすると逆位相は禁じ手。でも、これをうまく使えないだろうかと考えてみたのです。位相変化を音源に与えて、心地悪さを表現したら、ひゅ~っと後ろに定位できるのではないか。
――確かに、左右逆位相にすると、すごく気持ち悪い変な音になりますよね。
飛澤:単純に逆位相というのではなく、ショートディレイを使ってみたらどうだろうかと延々と試していきました。時間的には1msec~15msecくらいの超ショートディレイ。すると、なんとなく可能性が見えてきました。このショートディレイをファーストリフレクション(一次反射)に見立てていくことで、何かできそうだと。その結果、たどり着いたのが、前後左右4方向を上層と下層の2つを合わせた計8つの方向に別々のショートディレイを付けることで、位相コントロールを行なって、空間を表現できる方法を開発するにいたったのです。
――8つの方向だから、計8つのディレイを走らせる、ということですか?
飛澤:そうです。実際には1つの方向を90度で分けるので、16個のディレイを使います。人間はそれらのディレイをファーストリフレクションと認識し、立体的に音を捉えるようになるのです。この際、16個のディレイそれぞれに、どのくらいの時間を設定するかは3Dパンナーを使って行ないます。つまり、Ambisonicsエンコードをしており、この空間情報を持ったパンニングによってディレイタイム、センド量を、それぞれの方向ごとに割り出し、制御しているのです。
従来の3D音響技術との違い
――これまでにもヘッドフォン、イヤフォンを使った3Dサウンドというのはいろいろありました。いわゆるバイノーラルマイクを使ったレコーディングもそうですし、5.1chサラウンドを疑似的にヘッドホンで再生するものもありました。それらとはどう違うのでしょう。
飛澤:それらと競合するのではなく、それらと組み合わせて使ってもいい技術です。従来のバーチャルサラウンドといわれるものはHRTF(頭部伝達関数)を用いるものであり、人によってその結果は大きく変わってきます。それに対し、ここで用いた方法は位相変化なので、誰でも感じるものだし、フィルター云々という話でもありません。HRTFと関係ない次元で立体感を得られるという点で、大きなメリットがあると考えています。
――HRTFを使った技術はもういらない、というわけではないと。
飛澤:HRTFの問題は、引き続き重要な要素であり、HRTFが解決され、その精度がその人にマッチすれば、より立体感を感じられるはずです。自分が行なっているのは、HRTFの外側にある技術で、アドオンの技術ともいえます。どのような3D音響技術であっても、これと補完し合うものだと考えています。
そもそもHRTFの研究は僕にはできません。いろいろな設備も測定器も必要ですし、データも必要であり、僕には無理。あくまでミキサー、ミックスエンジニアという職業であり、これまで培ってきた経験をどのように生かすかという点にフォーカスしています。ここでの研究は、従来どこの立体音響でもやってこなかったことだと思うのです。単純なアイディアではありますが、そこにもちゃんとした理論があるので、今年8月には特許出願を行なったところです。実際に処理する際の音の流れを示したのが下図です。
――先日、女性声優さんの声で音響を聴いたとき、まるでバイノーラルマイクに向かってしゃべっている、動き回っているように感じ驚きました。バイノーラルマイクではなく、疑似的に行なっているわけですよね?
飛澤:はい、声優の宇佐美えりさんの声で試したものですね。YouTubeにもあるので、ヘッドフォンで聴いてみてください。
これは1本のマイクで普通に録った音を3Dパンナーで回しているだけです。この音源のほか、さまざまな音源を100人以上の人に聴いてもらいましたが、ほとんどの人が前と後ろを把握して立体的に感じてもらえたので、ある程度はこの表現力を証明できているのかなと思います。
もうひとつ外国人男性の声を録音した声を単純に頭の周りを2周回すサンプルも作ってみたので、こちらを聴いてみてください。
【サンプル音源】
https://soundcloud.com/kenfujimoto/male-voice-3d-panning
――これは、いろいろな可能性を感じますね。一方、音楽作品でも公開可能な音源があるのですよね?
飛澤:同じ楽曲を3つのタイプでミックスしてみたので、聴いてみてください。
【サンプル音源】
https://soundcloud.com/kenfujimoto/sets/8way-reflection
音源提供アーティスト:実咲 提供楽曲:「エピローグ」
ボーカル、ピアノ、アコギの3つの音で構成されているのですが、1つ目は普通のステレオミックスです。それに対し、2つ目は2.5次元ミックス、3つ目は3次元のミックスとなっています。
どういうことかというと、普通のステレオミックスだと頭の中で音が鳴っているような感じの頭内定位となるのに対し、3次元ミックスでは、ボーカルは前、ピアノは左後ろ、アコギは右後ろと頭の外側に定位しているようなミックスの仕方となっています。
一方で、2.5次元はピアノとアコギは頭外定位、ボーカルは頭内定位という手法で、ちょっとユニークな表現方法になっています。これをどう組み合わせるかによって、表現の幅が広がることを感じてもらえればと思います。つまりすべてを3Dにしなくても、どうするかの加減を使う人が決められるという面白さがあるわけです。実際にはPro Tools上で3Dパンナーを操作した上で、最終段ではAudio Easeの360monitorを使ってヘッドフォンのバイノーラルサウンドに畳み込んでいます。
2021年にはプラグインで発売も
――現在、こうした3Dサウンドを、飛澤さんの元でのみ作れる形ですが、これをプラグイン化するとのことですね。もう少し具体的に教えてください。
飛澤:誰もが簡単に3Dサウンドが作れるようなプラグインの開発を計画しています。もちろん僕自身、プログラミングはできないので、知人に手伝ってもらっているのですが、来年の夏くらいには製品化できるよう進めているところです。
レベルに応じて3段階くらいのプラグインが作れたらいいなと考えています。まずはエントリー用に簡易的な3Dミックスが作れるというもので数万円くらいの価格。2番目はある程度サウンドを操作でき、自分の楽曲のキーにあった音に調整できるといったもの。そして最高峰はファーストリフレクションに加えセカンドリフレクション、サードリフレクションも位相コントロールできるようにしたものです。
――セカンドリフレクション、サードリフレクションまでコントロールするのですか?
飛澤:はい、まだ研究中ではありますが、ベーシックな理論はできあがっているので、あとはどのようにしてより精度を高められるかを研究中です。ミキシングで処理するという性格上、位相変化ですごく心地悪くなるのですが、セカンドリフレクション、サードリフレクションで空間を広げつつ、よりリアルにできればと思っています。この最高峰のもので10~20万円といった価格で出せればと考えているところです。
――プラグインができて、誰にでも3Dミックスできるようになるとしたら、非常に嬉しいところですが、外販せず、3Dミックスができる唯一のミキシング・エンジニアとして飛澤さんが請け負って仕事をするほうが、儲かるのではないですか?
飛澤:僕がやりたいのは音を進化させたい、ということ。僕がいくら会社大きくしたとしても独占できるようなものではありません。たぶん、そんなことをしたら、世の中から叩かれるだろうし、仕事なんて来なくなるのではないでしょうか?
ご存知の通り、僕はミックステクニックを公開しちゃうタイプなので、こうしたプラグインを出していこうと思っているのです。いろいろな人に使ってもらって、どんな化学反応が起きるのかが楽しみなのです。僕にはない発想の使い方も出てくるのではと。これによって制作革命を起こしてみたい。確かにプラグインを出したところで、あまり儲かるとは思えません。でも、これによってビジネスの幅を広げていきたいのです。
この技術は、今までのステレオのインフラのすべてに当てはまるので市場は莫大です。ネット配信やライブ配信などはもちろん、放送、テレビ、ラジオ……さまざまですから。僕一人で抱え込んでもこじんまりと終わってしまう。僕一人では到底できないことを、プラグイン化し多く人が使うことで、進化のスピードも上がるはずです。そしてできたコンテンツに対し、みなが「これいいね!」と広がってゆけば世の中が豊かになるはず。音環境が豊かになるよう、目指していきたいと思っています。