藤本健のDigital Audio Laboratory
第840回
スピーカー2台で驚きの立体サウンド「KISSonix」。その仕組みを聞いた
2020年3月2日 11:09
昨年、この連載で「Dnote -LR+」という、小さなスピーカーから音が飛び出す技術について紹介した。クロスキャンセリングを行なうことで音が立体的に広がるというユニークな技術だったが、それとは大きく異なる別の3Dサウンドに出会った。KISSonix HDFXという技術で、やはりサラウンドスピーカーなどは必要とせず、ステレオスピーカーさえあれば立体的に音を聴くことができるというものだ。そのサウンドを実際に聴くとともに、開発者であるキスソニックスの伊藤カズユキ氏に話を聞いてみた。
普通のスピーカーでも3Dサウンドを可能にするKISSonixエンコード
このKISSonix HDFX(以下KISSonix)は、特に再生環境を選ばず、ステレオスピーカーであれば何でもOKであり、ヘッドフォン/イヤフォンでも大丈夫とのことなので、このYouTubeのビデオでサウンドを聴いてみてほしい。
鍾乳洞での音だが、通常の音とKISSonixを掛けた後のビフォー/アフターを聴き比べられるようになっている。KISSonixによってかなりサウンドが広がっているのを感じられると思う。
このKISSonixのサウンドに興味を持ったキッカケは、3月1日まで東京・日本橋で開催されていた「FLOWERS BY NAKED 2020 -桜-」というイベントに取材で行ったこと。この会場では、さまざまな音楽や効果音が鳴っていたが、どれもとても立体的なサウンドになっており、それが普通のスピーカーから出力されていた。聞いたところ、これがKISSonixでエンコードされた音とのことで、スピーカーに特殊な仕掛けもしていないというのだ。どんな技術なのか知りたく、担当者にキスソニックスの伊藤氏を紹介してもらって話を聞いた。
東京銀座にあるキスソニックスにうかがうと、そこはレコーディングスタジオという感じの部屋。ここに置かれた10cmウーファーの小さなスピーカーで音を聴かせてもらうと、確かに目の前のスピーカーから音が出ているのではなく、包み込まれた感じでさまざまな方向から音がやってくる。
ステレオのCDを聴かせてもらうと、音が広がるし、映像配信のNetflixを流せば、これはサラウンドスピーカーで鳴らしているの? という感じで聴こえる。この際、専用のリモコンを使うことで、通常の音での再生とKISSonixをオンにした状態と聴き比べることができ、その差は歴然だった。
音が広がるといっても、リバーブを掛けたようにボケたサウンドになるのではなく、クッキリした音であることには変わりはなく、元の音よりも明らかにハッキリしたサウンドになるのも面白いところ。さすがに後ろから音が聴こえてくるというわけではなかったが、真横くらいからは音を感じられる。さらにモノラルのマイルス・デイヴィスのレコードを再生してもらった。普通に聴くと、昔のレコードだな……と思うのだが、KISSonixをオンにすると、ステレオサウンド的になり、断然音質が向上する。かなり不思議な体験をした感じだったが、これはどういうことなのか? 伊藤氏にいろいろとうかがった。
PCスピーカーでもヘッドフォンでも立体感のある音
――いま聴かせていただいたスピーカー、リモコンで操作をされていましたが、当然普通のスピーカーではないですよね?
伊藤カズユキ氏(以下敬称略):そうですね。これは2018年秋にクラウドファンディングのKickstarterで発表し、2019年4月から正式に発売しているKISSonix HDS4というスピーカーです。蔦屋家電で98万円で販売している製品で、モノラル、2ch、5.1chの信号を入れると、リアルタイムにエンコードして立体的に鳴らすことができるハイレゾ3Dサウンドスピーカーです。この中に入っているシステムによってリアルタイムエンコードしているわけですが、すでにエンコードしたサウンドであれば、このスピーカーを使わなくても、普通のスピーカーで立体的に再生することが可能です。
――先日、「FLOWERS BY NAKED 2020 -桜-」の会場で聴いた音も普通のスピーカーで鳴らしていたと思いますが、あれも伊藤さんが事前にエンコードしていたわけですよね?
伊藤:その通りです。NAKEDさんからマルチトラックのデータを受け取っていたので、それをここで3Dミックスした上でステレオスピーカー用にエンコードし、それを会場で流していました。KISSonixの3Dサウンドの最大の特徴はステレオ再生が可能なデバイスであれば、オーディオ機器を選ばずに立体的に音響が聴こえるということです。
小さなPC用スピーカーでもいいし、もっと大きなスピーカーでも大丈夫。コンサートホールのようなラインアレイを何段も積んだようなスピーカーでも聴くことができるので数百人、数千人が聞けるようなところでもOK。屋外、屋内を問わず3Dサウンドを体験できるのです。
一方で、スピーカーではなくヘッドフォン、イヤフォンで聴いても立体感を味わうことが可能です。ただし、ヘッドフォンやイヤフォンだと、どうしても頭内定位になってしまい、なかなか音が外へとは広がっていかず、自然な音場にはならないので、スピーカーで聴いたほうが、より気持ちよく聴くことができるはずです。
――そのエンコードというのは何を使っているのですか?
伊藤:ここにあるラックマウント型のプロセッサを使っています。これは市販しておらず、ここに何台かあるだけなのですが、2chモード、5.1chモード、6.1chモードの3種類を持っており、いずれのモードでも2chの音となってリアルタイムに出てきます。たとえば映画作品などドルビーデジタルの信号であればいったん5.1chのオーディオ信号に変換した上でこの機材を通して、2chにするのです。
これを聴くと映画のMAで作られている音場表現そのままで2chになる。このエンコードで特にパラメータがあるわけではなく、単純に通すだけです。またステレオの素材を入れるとステレオで出てくるのですが、これも自然な3D感をともった音になって聴こえてきます。一方で、こちらのスピーカーにも同じ処理をする回路が入ってリアルタイムに変換して音を出すようになっています。こちらはモノラル、2ch、5.1chの各モードであり6.1chには対応していませんが、アナログ入力とデジタルでのS/PDIFオプティカルの入力で使えるようになっています。
作曲家が、自分の求めた音を実現するために開発
――実際、どんな処理をしているのかをうかがいたいのですが、その前に簡単に伊藤さんのバックグラウンドを教えていただけますか?
伊藤:私自身はもともと作編曲家であり、それが仕事で、今もその流れにあります。昔からオーディオとか楽器に興味があり、機材を作ったり改良したりということもしていました。また自分の求める音に仕上げるためには自らスタジオを持つ必要があると感じ、比較的早い時期にスタジオを作っています。その過程で1986年ごろからティアックのレコーディング機材の開発アドバイザースタッフとして参加するようになり、さまざまな機材の開発現場も見てきました。
一方、3Dサウンドは中学生のときに日本ビクター(現JVCケンウッド)が開発した4chのオーディオシステム、CD-4を買ってもらったのが最初でした。ただ、想像していた立体感が得られず、こんなものかとショックを受けたのです。それをきっかけに3Dサウンドに興味を持ち続け、作曲家として仕事をするようになってからは、さらに本格的に研究をしていました。'90年代には、QSoundやローランドのRSSをはじめ世界中からさまざまな技術が出揃い、いろいろと使ってみました。だんだんと、それぞれがどんな理論に基づいて処理しているのかも分かってきました。ただ、みんな似たような理論に立脚しており、これ以上前に進まない状況に見えました。どれも正解ではないな、と。だとしたら自分でやるしかない、と思うようになったのです。
――とはいえ、世界中のメーカーが研究してうまくいかないものを作曲家が実現できるのでしょうか?
伊藤:3Dサウンドと一言でいっても通常の2Dにギミック的なものを加えるのが従来の方法です。つまり本当の意味の空間づくりではない。ボクの頭で浮かんでいたのは全体が3Dになっているものなので、従来の考え方とは相いれないのです。また従来のものだと3D化することで音質が担保できない。位相をいじったりするからミックスすると音が消えちゃったり、センターに定位していたものがなくなってしまったり、問題点が多かったのです。一つ一つ既存のシステムの問題点をつぶしながら、どのように処理すべきなのかが見えてきたのです。
――実際、何をするのですか?
伊藤:たとえば2chのものを3Dサウンド化する場合、2chの音源の中に空間的な要素がある。そのファクターを抽出して、それを3Dサウンドの定位に戻してやるのです。響きのファクターとかが入っているので、それを3D空間に戻している。これを聴覚AIシステムと呼んでいるのですが、人間の聴覚の仕組みを再現しているのです。簡単に言うと、右の耳に入った音は鼓膜を揺らし、蝸牛の中で電気信号に変換され、それが反対側の耳の後ろにある聴覚野に送られます。頭の中で左右がクロスした形で知覚するわけですが、その左右の差異をもとに音質や立体感、距離なども判断していくのです。その左右の音の波の違いを感じた時点で、人間は聴いたと判断するのです。そこで、音の差異を元にして、どこから音が出ているのかを設定するという、逆順で立体を実現しようというのがKiSSonix HDXなのです。脳がそう知覚できるように音の場所を再現するものを作っているのです。5.1chのようなサラウンドの音であれば、どの音がどこにあるのかが分かるので、その情報を元に2chで再現させているのです。
――なんとなく方向性は分かるような気もしますが、まったく理解できないのが正直なところです。では2chを3D化するのは、どのようにしているのでしょうか?
伊藤:2chの信号を解析した上で、それぞれの音がどこに定位しているかの位置関係を判断し、それをいったん5.1chに展開しています。そこから先の処理は同じになるわけです。脳の機能の仕方を参考にしているのです。ボクらがみんな持っている脳ってすごいところもあるけれど、結構いい加減なところも多い。たとえば1枚の絵を見たときに、全部を完全には把握できない。目を惹くところを集中して見て理解します。音を聴く場合もそれと一緒なので、どこを集中して聴くかを把握し、それ以外を端折っていくのです。そうすることで、うまく脳が補間して聴くことができるのです。
FPGA採用の基板がスピーカー内に
――こうした技術はデジタルで処理しているわけですよね。そのプログラム、プロセッシングは誰がどのようにしているのですか?
伊藤:全部私が作っています。もともとプログラミングなんてまったく分からなかったし、自分でプログラムを組むなどとは考えてもいませんでした。が、仕事の行きがかり上、大手通信会社と新しいビジネスモデルを作ることになったのです。その中のコンテンツだけを作っていればよかったのですが、コンテンツプロバイダをやってみたくなり、そこからプログラムの世界に入っていきました。最初はPerlって何? というところからでしたが……。
そこから発展して、デジタル信号処理のほうにも興味を持ち、Cを使ってオーディオ信号を変換するようになりました。でもPCのOSベースで処理していると、どうしてもタイムラグが出てしまう。そうはいっても数百ミリ秒というレベルではあるのですが、もっと追い込むにはどうしたらいいんだろう、と深入りしていきました。そうした中、見つけたのがFPGAでした。調べてみるとザイリンクスのチップが乗った評価ボードが数万円で手に入るんです。これに簡単なプログラムを書いてみると、タイムラグなく動かすことができる。失敗しても、書き直せば、回路が書き換わり、何度でも試すことができます。
FPGAの便利なところはC言語で作ったものでも回路にできるなど、なんとでも応用が利く点。試行錯誤で結構時間はかかりましたが、このようにして作っていたのがこのシステムなんです。評価ボード自体にもデジタルのI/O、アナログのI/Oもあるので、最初はこれを使いました。もっともデジタルもアナログもステレオしかないので、5.1chや6.1chは外部にI/Oをつけて処理していきました。このFPGAを使った基板がスピーカーユニットの中に入っています。
――FPGAのシステムプログラムが書ける作曲家って、世界中探しても他にいないでしょう!
伊藤:そうかもしれませんね。技術の進化も速くて、このシステムを作っている間にも、チップのパワーが倍になりました。マルチチャンネル処理をすると、どうしても1つのFPGAでは処理しきれずボード2枚を使っていましたが、FPGAの進化によって1つで実現できるようになっていきました。もっとも現在はシステムエンジニアを一人社内に入れて、プログラムに落とし込むところは彼にやってもらっていますよ。
――ちょっと狐につままれたような話ではありますが、実際音を聴いてみると、確かに立体的でありつつ、音質が元よりよくなっているように感じるから不思議です。現在、キスソニックスの業務としてはどんなことをされているのでしょうか?
伊藤:ようやく完成したKISSonix HDFXのシステムを内蔵したスピーカーを販売しているとともにイベントスペースやコンサートホールで使う3Dサウンドのシステム提案などをしています。FLOWERS BY NAKEDもその一つですし、アクアパーク品川での音響、またスター・アイランド、東京モーターショーなどイベントに導入したり、常設施設では渋谷ヒカリエのパブリックスペースに3Dサウンド空間を提供するなどいろいろな展開を行なっています。
また、CDやDVD/BDなどの作品での3Dシステム導入なども増えています。たとえばMONDO GROSSOの「Attune/Detune」というアルバムで3Dミックスをしているほか、先日も岩井俊二監督の「ラストレター」という作品のDVD/BD用の3Dミックスの納品を終えたところです。
――このMONDO GROSSOの作品は、聴き比べると明らかに3D化した音のほうが立体的であるだけでなく、音質がよくなっているように思えますね。これは2chの信号をKiSSonixのシステムで3D化したということなのですか?
伊藤:ケースバイケースではありますが、多くの場合、ProToolsなどのマルチのデータをもらい、ここで5.1chに展開した上で、KiSSonixのサウンドに変換しています。つまり、ここで3Dへのミックス作業を行なっているわけです。そうすることで、より立体的なサウンドに仕立てあげることができるのです。いずれにせよ、普通に手元にあるステレオのスピーカーで再生するだけで、立体的なサウンドを楽しむことができるので、機会があればぜひ多くの方に体験していただければと思います。