藤本健のDigital Audio Laboratory

第688回 “DSDのまま編集”を実現!? 帽子型補聴システム、24ch再生などDSDの新たな可能性

“DSDのまま編集”を実現!? 帽子型補聴システム、24ch再生などDSDの新たな可能性

 DSDデータの配信が広まり、DSD対応のUSB DACが普及したことから、利用者が増えてきた1bitオーディオの世界。一般的にDSDのサンプリング周波数は2.8MHz、5.6MHzが使われているが、最近では11.2MHz(正確にいえば11.2896MHzだから11.3MHzかもしれない)対応のデータ、USB DACも登場してきている。でも、それよりもさらにサンプリングレートを大幅に上げるとどんなことが可能になるのだろうか?

 これについて、単に“音質向上”というのとは異なる、まったく新しい世界が早稲田大学で研究されている。先日行なわれた第13回「1ビット研究会」において「FPGAを用いた高速1ビット信号処理」と題する発表が行なわれ、3つの事例が紹介されたので、簡単に紹介したい。

DSDのサンプリングレートを上げて、編集処理を可能に?

 DSD=Direct Stream Digitalは、ソニーとフィリップスが命名した商標で、スーパーオーディオCD(SACD)で採用されたフォーマットのことだが、その原理はΔΣ変調を使ったとてもシンプルなオーディオ-デジタル変換であり、「1bitオーディオ」などとも呼ばれている。

 この1bitオーディオのサンプリング周波数を500MHzとか768MHzなど、従来の100倍以上にすると、従来の1bitオーディオというかDSDの常識を覆すような面白いことが可能になってくる。もちろん、これだけサンプリング周波数を上げると、超高速演算が必要になってくるため、それをFPGA(プログラムによって回路の書き換えが可能な演算デバイス)を使って処理するというのだが、どんなことが可能になるのか、順に見ていこう。

 早稲田大学を卒業し、4月からコルグの社員になっているという今井亮太氏の発表は、1bitオーディオを編集処理するというもの。DSDの常識においては、音の編集は不可能であるというものがある。かろうじてカットしたり、フェード処理などの音量調整までは可能であるが、ミックスしたりエフェクトをかけたりといったことは不可能である、という常識だ。どうしても編集処理をしたい場合には、一度マルチビット信号であるPCMに変換するか、一旦アナログ信号に変換した上での処理が必要となり、ピュアDSDではなくなってしまうというのが大きな問題だった。ところが、サンプリング周波数を上げると、そうした編集処理が可能になる、というのが今井氏の発表内容なのだ。

コルグの今井亮太氏

 まず、もっとも単純な考え方は、2つの信号をそのままミックスするには、ただ足し合わせればいい、というもの。あらかじめ、1bit信号のデータを1つ置きに0で埋めることで、サンプリング周波数を倍に増やす。この0の位置を互い違いにした状態において、1bitの足し算をすれば、オーバーフローなどまったくなく、簡単にミックスできるというわけだ。この場合、音量的には1:1でのミックスとなるが、もちろんミックスバランスは1:1だけでなく、いろいろなバランスで行ないたいところ。その場合は、倍ではなく3倍、4倍、5倍と上げていけば、可能性は広がっていく。2つの信号をミックスするバランスを変えることができるし、複数の信号もミックス可能になってくる、というわけだ。

1bit信号のデータを0で補間してサンプリング周波数を倍に増やし、足し合わせて1bit信号をミックスできるという
3倍、4倍、5倍と上げていくこともできる

 では、エフェクトをかけるには、どのようにすればいいのだろうか? PCMにおけるエフェクト処理も、そもそも演算によって行なわれているわけだが、たとえばリバーブについて考えてみると、時間と音量を変化させた自己ミックスといえる。つまり、時間とともに、音量が小さくなっていく信号を足し合わせればリバーブが実現するわけだが、この処理を行なうには、それなりに0で増やした上で、時間をずらして足していくわけだ。この発表においては500MHzのサンプリング周波数で、ミックスやリバーブの結果が披露されたが、確かにPCMと同様にミックス処理、エフェクト処理されていることを確認できた。

1bit信号のままリバーブ
0で増やした上で、時間をずらして足し合わせる

 ここでは、すべての処理がPCMやアナログを使わない、純粋なDSDというか1bitオーディオ上で行なわれている。

 DSD録音は、対応機器の登場などで以前に比べて手軽にできるようにはなってきたが、なんら手を加えることができず、少しでもいじることを考えると、アナログかPCM変換が必要で、ピュアDSDではなくなっていた。もちろん「なんら手を加えないからいい」という人がいるのも事実だが、実際のレコーディングを考えると、多少はいじりたい面がある。そうした中、DSDのまま、多少なりとも音を編集できる可能性ができたことは 今後のDSDのコンテンツ制作という面において大きな可能性を感じた。

 ただ、こうした処理がすぐに実用化できるのか、というとまだまだのようだ。現状においては1bitオーディオでも、こうしたことが「できる」事実を実証した段階であり、すぐに実用化できる状況にはないとのこと。10年、15年先を見据えた研究という感じではあったが、ぜひ今後に期待したい。

デジタル処理で「音がどこから聞こえるか」をとらえる

 「カクテルパーティー効果」という言葉をご存じの人も多いだろう。人間は多数の人が会話をしている環境においても、目的の音・声だけを聞き分けることができることを意味するものだ。なぜ、そんなことが可能なのかというと、人間の聴覚が単に2つの耳で右の音と左の音と2つを捉えているのではなく、立体的に音を捉えることができるからだ。実際、同じ場所でICレコーダで録った音を聴いても、平面的な音であるために、目的の音・声を判別するのは困難になってくる。このことは補聴器においても同様のことがいえる。つまり、単純に右のマイクで拾った音を右耳に、左のマイクで拾った音を左耳に届けるだけでは、カクテルパーティー効果を得ることができないのだ。

 そこに対応するための補聴器を1bitオーディオで実現できないか、というのが、修士2年の井上貴之氏による1bitオーディオを用いた補聴器に関する研究発表。

井上貴之氏

 ここで実現しようとしたのは、ビームフォーミングという手法を用いて、鋭い指向性をもって音を捉えるというもの。つまり、指向性の高いマイクを、対象の音の方向に向けるというのではなく、多数のマイクで音を捉えつつ、1bitオーディオによるデジタル処理で鋭い指向性を実現しようというのだ。そこで、まず作られたのがちょっと不思議な帽子。360度でしっかりと音を捉えるために、帽子のつばの上にMEMSマイクロフォンアレイを1.3cm置きに計48個装着。それぞれからの音を1bitでサンプリング周波数3.125MHzで捉えるのだ。これだけ高速なサンプリグレートであるため、各マイクロフォンアレイに届く音には、明らかな時間差が生じる。つまり、目的に音に最も近いマイクに最初に音が届き、その隣のものにはごくわずかに遅れて届き、その次のにはさらにズレる…といった形になる。

マイクアレイが取り付けられた「帽子型補聴システム」
計48個のマイクがが360度に向けられている

 そこで、ここでは前方正面、0.5mのところに音源があると仮定し、それぞれのマイクにどのくらいの遅延があるかを予め計算しておく。そして、その時間差を帽子の中に埋め込んだFPGAを用いてリアルタイムに揃えた上で、それぞれのマイクの音をミックスすることにより、狙った音を大きくする、というのがここでの処理。実際、発表会場では、その帽子型のマイクが捉え、FPGAで処理された音が披露されたが、確かに目的の音が大きくなっていることを確認することができた。井上氏によれば、最大で約10dBの差を得ることができ、半値角は約30度とのことなので、かなり鋭い指向性が実現できていたことになる。もちろん、ホンモノの補聴器で実用的に使うのは、目的の音源を前方50cmなどと固定するのではなく、リアルタイムに、方向や距離を指定できないといけないが、こんな世界においても1bitオーディオが活用できる場があることが実証できていた。

前方正面0.5mに音源があると仮定
時間差を帽子の中に埋め込んだFPGAを用いてリアルタイムで計算
遅延時間の決定方法
測定結果

24ch再生で立体音響を実現

 もう一つの事例は修士2年の山中優勢氏による1bitオーディオで多チャンネルの音を出すシステムの紹介。先ほどから、何枚かの写真に出ていた壁のように並んでいた横7つ、縦5つの計35個のスピーカーユニットが並ぶシステムを利用した立体音響の世界を1bitオーディオで実現するという実験だ。

山中優勢氏による多チャンネル再生のシステム

 先日の第686回記事「アップサンプリングで音は良くなる? 変わらない? 独自手法を提案する技術者に聞く」でも触れたが、DSD/1bitオーディオのデジタル信号を再生するのは細かな音質までこだわらなければとっても簡単だ。抵抗一本でという表現は大げさかもしれないが、アナログアンプも不要で、デジタルに直接スピーカーを接続するだけで音を出すことができる。1bitオーディオは信号成分の情報も含有するからD/A変換も不要だし、デジタル信号用のICバッファ(例えば74ACT240Eや74ACT244Eのようなチップ)を使うことで増幅できるので、そのままスピーカーを駆動できる。

 さて、ここで行なわれたのは、多チャンネル化だ。DSDの世界でも5.1chなどのマルチチャンネル対応しているが、ここで行なったのは24chの再生。スピーカーは35個あったが、使ったのは24個とのこと。当然チャンネル数が増えれば、それだけ処理量が多くなってくるが、ここでは24ch分のデータをSSDから読みだして、この装置で直接再生している。

 その24chで今回デモが行なわれたのはとってもシンプルなもの。まずは24chすべてに同じ信号を出して聴かせた後、左から右へ、右から左へと音の出るスピーカーを変更するとともに、ほかのスピーカーに遅延を与えることで、左右のパンを振るというもの。もちろん、24chをうまく活用することで音場を表現することなど、さまざまな展開が可能だという。

24ch分のデータをSSDから読みだして直接再生
遅延を与えることで、左右のパンを振る

 いずれも、まだまだ実験段階のプリミティブなデモではあったが、DSDというか1bitオーディオの未来の可能性を感じさせてくれるものだった。単に高音質、リアルな音ということではなく、まったく違う用途でも広がる可能性がありそうだ。これらが、実用化の段階に入るまでには、まだまだ時間はかかりそうだが、今後も1bitオーディオの利用法については追っていきたい。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto