藤本健のDigital Audio Laboratory

第597回:USB DAC搭載スピーカー「ECLIPSE TD-M1」と“タイムドメイン”への疑問をぶつけた

（2014/6/23 14:39）

　タイムドメイン・スピーカー。いろいろなところで製品を見かけるし、話を聞くこともある。音も何度か聴いたことはあったし、音自体に悪い印象はなかったが、これまで技術の内容について詳しく知る機会が無かったため、なんとも胡散臭い気がしていて好きになれなかったのが正直なところ。まあ、一種の宗教みたいなものではないか……そんな風に思っていた。

タイムドメイン理論に基づいた富士通テンのスピーカー「TD-M1」

　ところが先日、とあるきっかけで富士通テンの担当の方とお会いし、2月に発売したECLIPSEブランドの新製品「TD-M1」(ペア125,000円)という小さいスピーカーの音を聴かせてもらったのとともに、タイムドメインとはどういうことなのかをうかがったところ、妙に納得してしまった。別に宗旨替えをしたというわけではなく、技術的/理論的に合点がいくな、と。そのTD-M1を借りて使うこともできたので、この機材の機能的なことも紹介しつつ、私が理解したタイムドメインというものについて、まとめてみたいと思う。

“いい音”ではなく“正確な音”はどうやって判断する?

　先日、Facebook経由でレコーディング・エンジニア、マスタリング・エンジニアのオノセイゲン氏から、「近所なので遊びに行く」という連絡をいただいた。筆者の事務所とオノセイゲン氏のスタジオであるサイデラ・マスタリングは徒歩10分程度のところだったので、そんな連絡をいただいたのだが、もちろん二つ返事でOKしたのだ。その際、富士通テンでタイムドメイン・スピーカーを担当している人も一緒に連れてくるとのことで、とくに気にせず当日を迎えたのだが、そこで初めてお会いしたのが富士通テン TD事業室長の小脇宏氏だった。近所からいらしているのかと思ったら、神戸から新製品のスピーカーを運んできたとのことで、ちょっと驚いたのだが、実際に音を聴かせてもらって、さらに驚いた。

オノセイゲン氏(右)と筆者

富士通テン TD事業室長の小脇宏氏

事務所でTD-M1の音を聴いてみた

　来ていただいたのは、事務所として使っていて、音を出したりすることのない殺風景な場所。しかし、この小さいタマゴ型スピーカーで音を出したところ、ものすごくリアルなサウンドに包まれて、「ここはどこだ? 」と思ってしまったほどだ。20W×2chのアクティブスピーカーであり、ライン入力された音が出せるほか、USB DACとして使えたり、iPhoneの充電に使う普通のUSB-Lightningケーブルを使ってUSB A端子に接続すれば、iPhoneから再生できるし、さらにはAirPlayでWi-Fi(無線LAN)経由でiPhone/iOS端末やWindows/Macからの再生も可能と、利便性もよさそうだ。

　とはいえ、ちょっと音を聴いただけで「タイムドメイン・スピーカーはいい! 」などと納得してしまうつもりは毛頭ない。そんな風に警戒していた中、小脇氏から、タイムドメイン・スピーカーについて、いろいろと説明を受けていった。開口一番「ECLIPSEの音に対するコンセプトは“いい音”ではなく“正確な音”です。『周波数領域』ではなく『時間領域』、つまりタイムドメインを重視しているのです」と言われ、失礼だが「宗教っぽい話だ」などと思っていた。確かに“いい音”というのは人によって違うと思うし、好き嫌いはあるけれど、“正確な音”な音は元の音を再現するということなので、目指すべきところはあるはずなので、そこには賛同する。だからこそ、筆者も“聴き心地のいいオーディオ機器”よりも“モニター環境”というのにはこだわっているつもりなのだ。

小脇氏にタイムドメインスピーカーについて解説していただいた

「一般的にオーディオを調べるのにFFTなどを使いますが、あれはかなり曖昧な測定方法です。ある瞬間、瞬間を切り取って分析していますが、その間隔は大きいし、あまり細かく周波数帯域を分割することもできません。また、FFTで見るフラットな特性が必ずしも正確な音ではないのも事実です。たとえば低域が弱いので箱鳴りさせて補強すれば、周波数特性上フラットに近づきますが、その低域は本来の音とは違ってくるはずです」と小脇氏。

　確かにそれはその通りだし、個人的にも気になっていた点だ。一般的にオーディオの評価って、周波数特性が非常に重視されており、いかに広い帯域でフラットに音が出るかが大切だとされているが、本当にそれが正しいのかといわれると自信がなくなる。また、無理やり箱を共振させて低域を出したりしていたら、それは本来とは違う音になってしまいそうな気もする。

「だからFFTで分析して調整するのではなく、時間軸での波形を見て、できるだけ元の音に近い形にしようというのがタイムドメインの考え方なんです。そして、その時間軸での測定に用いているのが、インパルスとインパルス応答です」とのことだ。

波形編集ソフトを用いて作ったインパルス信号

　小脇氏の説明によると、スピーカーにインパルス信号を入れて音を出し、それをマイクで拾い、波形の分析をするのだという。ご存じの方も多いと思うが、インパルス信号とは、1サンプルだけ大きな音を出すという極短い「パツン」といった音。波形編集ソフトを用いて作れば、右図のような信号。これをスピーカーで鳴らせば、当然「パツン」とか「プチッ」といった音が出るのだが、それをマイクで拾って波形的にチェックするのがタイムドメインの考え方なのだとか。このマイクで拾った、結果の音のことをインパルス応答というのだ。

　その結果の音を示す、ややイメージ的な資料が下の図だ。普通に聴くと、「プチッ」という音に過ぎないが、細かく波形編集ソフトで分析すると、タイムドメインのスピーカーと、一般的な3ウェイスピーカーとではかなり違いがでるという。というのも、一般的な3wayスピーカーの場合、箱鳴りによって、原音とは違う音が出る、3つあるスピーカーから別々に音が出るので、それらが一致しない、ドライバユニット固有の共振がある、そしてネットワーク回路、といろいろな問題がある、というのである。確かに、2ウェイでも3ウェイでも、複数のスピーカーを同時に鳴らしてクロスオーバーって問題にならないのか、とは以前からすごく疑問に思っていたところだが、その結果、波形が崩れるというのは納得がいく。もちろん、フルレンジの単体スピーカーがすべていいのかというのはよくわからないところだが……。

マイクで拾った音を、タイムドメインのスピーカーと、3ウェイスピーカーで比較したもの

スピーカーで波形が崩れる主な要因

　「入力した波形と出力した波形がソックリになれば、原音に近い音である」ということであり、それは間違いない事実だろう。その点を考えたとき、先ほどの図のような結果であれば、タイムドメイン・スピーカーがいい、ということにはなるが、そんな一発の波形だけで判断することができるのだろうか?

　「デジタルオーディオの信号はインパルスの羅列でできています。なので、その最小単位であるインパルスを入れて、その出力を見れば、そのスピーカーの素性(正確性)が分かる、ということです。少し言い換えると、例えばインクジェットプリンターの性能評価をするとしましょう。もし自分が性能調査をするとしたら、インクを1滴だけ紙に印字し、その点の細かさ、色のバランスなどを評価します。もしその1点がにじんでいたら、印刷される絵がすべてにじんでしまう、ということが容易に想像いただけると思います。それを音の場合は時間軸特性に置き換えただけです」（小脇氏）。

　なるほど、妙に納得してしまうところだが、小脇氏によれば、「インパルス応答というのは“時間分解能を含む波形忠実度”を評価している」ということである。

　「従来オーディオは、周波数特性や歪率などを重視していましたが、それがゆえに、そのデータだけでは音の特徴を言い表せられず、“最後は耳だ”といわれてきました。でもたかだか44.1kHz/16bit程度の小さなデジタルデータで記録されている音が、科学的に分析ができないわけがなく、単に分析の仕方が分かっていなかっただけです」と小脇氏。

　「最後は耳だ」というのはオーディオに限らず、楽器でもレコーディングの世界でも、すべてそうであり、個人的にも、何かもっと確実な測定方法はないものだろうかと考えてきたが、波形で見れば正確に測定できるというのは、目から鱗という感じだ。周波数特性は、その波形の特定区間の平均値を数学的に計算している「派生データ」に過ぎないから、情報として不足しているということなのだ。

　もっともインパルス応答=Impulse Responseと、畳み込み演算=Convolutionというのは、タイムドメインに限らず、信号処理全般に広く使われているもの。コンボリューション・リバーブなどもその一つであるが、このインパルス応答と畳み込み演算の関係についても、小脇氏が分かりやすく解説してくれた。

　「スピーカーのインパルス応答を仮にIR(SP)としましょう。そのスピーカーの入力音楽波形をIN(music)、そしてスピーカーから出力される音楽波形をOUT(music)、畳み込み演算の関数をConv()とすると、OUT(music) = IR(SP) ・Conv(IN(music))という関係式が成り立ちます。つまり、入ってきた音楽波形にスピーカーのインパルス応答を畳み込み演算すると、出力波形が得られる、ということになります。この時、もし仮にインパルス応答が完全に正確なインパルスを再生できたとしましょう。その時、IR(SP)は1になります。そうすると、OUT(music)=IN(music)となり、完全に入力信号と出力信号が一致する、ということになります」とのこと。

　15年くらい前に、コンボリューションリバーブを知るとともに「インパルス応答の結果が分かれば、その空間を完全に再現できる」ということを知って、デジタル信号処理ってすごい! と思ったが、スピーカーでも同じことがいえる、と。もっとも、こちらはデジタル信号処理をしているわけではなく、単にアナログのスピーカー装置を駆動させているだけなので、計算能力は必要ないわけだが。その分、デジタル処理ほど単純ではなく、温度や湿度など、アナログとしての畳み込み演算の変数が増えてきそうな気はするが、評価・測定方法としては、十分に納得がいく。

使用する機材と測定法、レイテンシーに関する疑問

　ここで、一つ知りたかったのが、実際どのような機材、どのような方法で測定を行なっているのかということ。たとえば、スピーカーの音を捉えるマイクにはどんなものを用いているのか、またサンプリングレートとしてどのくらいのものを使っているのかといったことだ。こうした疑問を小脇氏にぶつけてみた。

　「弊社はB&K(ブリュエル・ケアー)の小型ダイアフラムのダイナミック型タイプを使っています。信頼できるメーカーの音響計測や、音響学会などで学術論文を書かれるような場合は、だいたいこれを使うのが一般的です。またサンプリングレートは220kHzという測定器を使っています。昔サンプルレートが低く、48kHz以下だったころは、時間分解能が低いため、測定するたびに波形が変わってしまい、インパルス応答の計測ができませんでした。そうした中、1990年代に当時最高速の220kHz計測システムを弊社無響室に導入して以来、ずっとこの計測器でインパルス応答を計測してます」との回答を得た。

　普通、スピーカーの評価というと、何人ものオーディオ評論家を呼んで、さまざな機器を使いながら、さまざまなジャンルの楽曲を聴かせて、いろいろな結果が出てくるものだが、220kHzの1サンプルを“パツン”と出すだけで、正確な測定ができてしまうというのは、なかなか痛快だ。もちろん、ここで測定しているのは「いい音」であるかを見るのではなく、「正確な音」を見ているわけだが……。

　B&Kの高級なマイクを入手するのは難しそうだが、なんらかのダイナミックマイクを使って測定することなら自分でもできそうだ。220kHzのサンプリングレートの機材はないが、192kHzのオーディオインターフェイスならいろいろあるので、これを使えば近いことができそうに思える。

　「たった1サンプルだけの信号だから、インパルスは信号のエネルギーが極めて小さく、それを入力してインパルス応答を計測しても、SN比が十分稼げません。そこで、一般的には『Time Stretched Pulse (TSP)』とか『M系列信号』などと呼ばれる信号を入力し、その出力結果を信号処理することで、SN比の比較的高いインパルス応答を計測することができます。弊社の場合は、220kHzのTSPを使ってインパルス応答を測定してます。このインパルス応答だけを測定して保存しておくだけで、後で分析すれば、振幅周波数特性、位相周波数特性などなど、通常音響解析を行なうほぼすべての分析が可能です」と小脇氏。

　確かに、1サンプルだと微かな音でしかなく、キレイにサンプリングするのは難しいのかもしれない。TSPを検索してみると、いろいろな学会資料などが出てくるが、即理解できる内容ではなかったので、この実験ができるようなら、また改めてチャレンジしてみたいと思う。

　ここで、もう一つ気になったのがレイテンシーについてだ。入力となるインパルスに対し、実際にスピーカーが反応して出てくるインパルス応答には、おそらくある程度の遅れが発生しそうに思うが、これはどう見ればいいのだろうか?

　「やはり遅延時間は発生します。もしもインパルス応答が完全なインパルスになれば、遅延時間はゼロになります。どういうことかもう少し解説しますと、インパルスを再生する時のスピーカー振動板の動作がこれ(下の項目)です」。

静止状態から
前に出て
もとの位置に戻り
慣性の勢いで[3]の位置で完全に静止できずに元の位置より後ろに下がり
また前に出てまた[3]の位置を超えて

　「これを延々と繰り返し、ある時間を経て[1]の状態に戻るわけです。もし完全なインパルスが再現できた場合というのは、理論的には、[1]～[3]のプロセスがゼロ秒で、しかも完全に静止、つまり[4]以降のプロセスが無いということになります。まあ、これは神様の領域になってしまうでしょうから、完全なインパルスの再生というのは、現代のスピーカー構造では不可能と言えますね(笑)。結局[1]～[2]のプロセスにかかる時間が、入力信号はゼロ秒であるにも関わらず、どうしても振動板の移動時間がかかるため、それが遅れになります。この遅延時間、TD-M1の場合で、約30マイクロ秒程度です。これはスピーカーによって大きく異なりますが、恐らくTD-M1よりも遅延時間の短いスピーカーは世の中に存在しないと思います。もし存在したとしても、それはツィータだけの話で、ミッドレンジやウーファの音は、0.5msec～3msec程度遅れるのが普通です。これはネットワーク回路の位相特性を計算すれば、ご理解いただけるのではと思います」と小脇氏は解説してくれた。

　すごそうなことは分かるし、レイテンシーが0ということはあり得ない、ということまでは分かった。でも、結果的に波形がインパルスに近いものになるのなら、多少のレイテンシーがあっても、音質には影響を与えないと理解していいのだろうか?

　「インパルス応答がデジタルディレイなどで単純に遅れる場合は、音質的には問題になりません。でも、スピーカーシステムによる遅れの場合、立ち上がり波形の不正確さや、スピーカーユニット個々の立ち上がりタイミングのズレに起因しますので、単に遅れというよりも、波形の崩れとして問題になります。やはり遅延時間は短いほど原音に近いということになるのです」とのことだ。

　タイムドメインについて理解している方にとっては、何を今さらという話ではあったと思うが、個人的には非常に興味深い話であったため、立て続けの質問となってしまった。もっとも、ここまでの話は、タイムドメイン・スピーカーがどういうものなのか、ではなく、スピーカー性能の計測をどのようにするのか、という話。タイムドメイン・スピーカーの構造などについては、調べれば、いくらでも情報は出てくると思うので、ここでは割愛する。とはいえ、今回のテーマであるTD-M1の内部構造の資料をいただいたので掲載しておこう。スピーカー後部に設置された「グランド・アンカー」なる錘は、ユニットの反作用を抑制するそうだが、どんな機能を果たすのかなど、筆者にはよく分からない。結果としてこの構造で作るとこれまで見てきたインパルス応答の結果がよくなる、ということのようだ。

TD-M1の内部構造

自宅のDTM環境でも試した

ヤマハのMSP5 STUDIO(左)とTD-M1(右)の比較

　さて、事務所で試聴させてもらった富士通テンのタイムドメイン・スピーカー、TD-M1だが、自宅用に貸し出してくれるということだったので、送ってもらい、DTM環境に設置して試してみた。普段、ヤマハのMSP5 STUDIOというモニタースピーカーを使っているのだが、これと比較しても断然小さい。置き換えてみると、かなりスッキリしたデスクトップになる。右側のスピーカーにUSB端子や電源の入力などがあり、付属のアンテナを取り付けることで、Wi-Fi接続も可能となる。また、この右側スピーカーにタッチパネル式の電源スイッチを兼ねた機能切り替えボタンやボリュームボタン、インジケータなどが存在しており、これで操作をするのだ。

自宅の環境に設置したところ

右側のスピーカーにUSBや電源端子などがあり、付属のアンテナでWi-Fi接続も可能

　ステレオミニでのライン入力は装備しているが、本命はPCとのUSB接続。192kHz/24bit対応のUSB DACとして機能し、USB Class Audio 2.0対応のようでMacなら、そのままドライバーなしでも接続でき、Windowsの場合は専用ドライバーをダウンロードして使う。

　Windows PCにUSB接続してみたところ、普通に認識され、サウンドデバイスとして使うことができる。TD-M1側の入力をUSB Bに設定することで、まさにモニタースピーカーとして、非常にキレイな音で再生することができた。とはいえ、WindowsのMMEドライバを使うと、リミッターが勝手に効いてしまうなど問題があり、せっかくインパルス応答がいいスピーカーなのに、その性能を存分には発揮できない。そこで、ASIOで鳴らしてみた。ダウンロードしてインストールしたドライバーにはASIOドライバーも含まれているため、ASIO4ALLなどをインストールしなくても使うことができるようだ。

Windowsの場合は専用ドライバを使用

サウンドデバイスとして認識された

ASIOにも対応

　実際にCubaseで鳴らしてみたところ、192kHzであっても問題なく音を出すことができた。20W×2chという出力なので、大音量を出すというのには向かないが、8cmという口径には思えない、しっかりした低音も出てくる。

192kHzの音源も問題無く再生できた

iPhoneとUSB-Lightningケーブルで接続して再生可能

　iPhoneやiPadなどiOSとの連携性も非常に優れている。冒頭でも少し書いたが、Lightning-USBカメラアダプタを使うのではなく、USB-Lightningケーブルで接続して再生させることができるほか、AirPlayでの連携も可能。このAirPlayもiOSデバイスとTD-M1を直接接続して音を出すほか、Wi-Fiルーターを介して鳴らすことができるなど、使い勝手の自由度も高い。さらに、iOS用のTD-M1コントローラ用のアプリ「TD Remote」も無償配布されているので、これでコントロールすると、より使いやすい。

AirPlay接続も行なえる

iPhoneと直接、またはルーター経由のどちらでも接続可能

iOS用のTD-M1コントロールアプリ「TD Remote」

　肝心の音のほうだが、「これまで詳しく話を聞いた後だから」という可能性は否定しないが、MSP5 STUDIOと比較しても断然リアルに感じる。もちろん、MSP5 STUDIOはデジタル入力があるわけではなく、間にオーディオインターフェイスを挟んでの音出しなので、比較対象としてあまりよくないのだが……。

　このTD-M1の難点を挙げるとしたら、スイッチ類の操作性だろう。デザイン的にはとても格好いいのだが、スイッチ類がタッチセンサー式になっていて、そのスイッチの場所などが見えにくいのだ。暗い場所だと、ボタンがどこにあるか分かりにくいし、明るくても光の加減によって、見えにくい。まあ、ここはデザイン性とのトレードオフということなのかもしれないし、スイッチは音量の上下を入れて3つしかないので、覚えてしまえばいいだけなのかもしれない。

操作部はタッチセンサー式

周りが明るくても見えにくい場合がある

　以上、タイムドメイン・スピーカーにフォーカスを当ててみてきたが、いかがだっただろうか? これまでタイムドメインについて、食わず嫌いでいたことについて反省するとともに、今回いい勉強の機会を与えていただいたオノセイゲン氏にも感謝でいっぱいだ。サイデラ・マスタリングもタイムドメインのスピーカーを使っているとのことなので、今度、見学に行く予定。ちなみに、冒頭で使った筆者の事務所での写真の撮影はオノセイゲン氏によるもの。巨匠エンジニアにカメラマンをお願いしてしまうとは、何とも申し訳ない限りだが、ぜひ今度は改めてオノセイゲン氏へのインタビュー記事なども企画してみたいと思っている。

Amazonで購入
TD-M1(ブラック)	TD-M1(ホワイト)

藤本健

　リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。　著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto。