藤本健のDigital Audio Laboratory
第575回:ウォークマンNW-ZX1/F880の「DSEE HX」で“MP3もハイレゾ相当”の理由を聞く
第575回:ウォークマンNW-ZX1/F880の「DSEE HX」で“MP3もハイレゾ相当”の理由を聞く
(2013/12/16 11:48)
既報のとおり、ソニーからハイレゾ対応のウォークマン「NW-ZX1」が発売され、ここにMP3やAACなどの圧縮音源を24bitへビット拡張すると同時に192kHzへのアップサンプリングを行なう「DSEE HX」という機能が搭載されている。同じDSEE HXは、12月11日にリリースされた新ファームウェアで「NW-F880」シリーズにも適用された。MP3がハイレゾになるとは、にわかには信じられないが、実際に音を聴いてみると、確かに「ハイレゾっぽい」サウンドに変化することが確認できる。
これまでも「MP3で欠けてしまった高域を補う機能」というものは、他社からもいろいろと出ていたが、何かEQでハイを強調したような音という感じで、個人的にはあまり好きでなかったのは事実。しかし、今回のDSEE HXはそれらとは一線を画すもののように感じるのだが、いったいどんなことを行なっているのだろうか? ウォークマンZX1などの企画を担当するソニーのSound商品企画部 プロダクトプランナー 小野木康裕氏、そしてR&Dプラットフォーム 情報技術開発部門 オーディオ技術開発部5課の統括課長 知念徹氏にインタビューをすることができたので、その詳細についてうかがった(以下、敬称略)。
DSEEとDSEE HXの共通点と相違点
――まずは、今回NW-ZX1などにDSEE HXを搭載した背景について教えてください。
小野木:ZX1という最高峰のハードウェアと、同じくハイレゾ対応のF880シリーズを発売することはできましたが、その性能を活かせるハイレゾのコンテンツはまだまだ少ないのが実情です。また仮に存在していたとしても、すでに持っている曲のハイレゾ版を別途購入するかというと、なかなか難しいところだと思います。でも、なんとかハイレゾ品質のサウンドを多くの人に聴いていただきたいという思いから、DSEE HXを搭載しました。
――DSEE HXを使うとMP3やAACが24bit/192kHzになって、音がよくなるということですが、「本当なの? 」という思いを持つ人も多いと思います。
小野木:先に、誤解をしないようにお伝えしておくとMP3もCDも通常は44.1kHzのサンプリングレートを使っているので、DSEE HXで変換されるのは4倍の176.4kHzです。48kHzのサンプリングレートのもの場合に192kHzになるのです。また、曲であったり、レコーディングに用いた機材やマイクなどによって、効果が高いものと、あまり違いが感じられないものがあるのも事実です。ボーカル中心の曲であったり、ジャズやオーケストラなどの場合、ハッキリと違って聴こえますが、打ち込み系の曲などだと、音質上の変化を聴きとることが難しいと思います。
知念:7年前にDSEEという帯域拡張の技術を作り出していましたが、今回のDSEE HXはその帯域拡張技術とビット拡張技術の双方を組み合わせたものとなっています。これを音のアップスケーリング技術と位置づけてウォークマンに搭載しました。ここではボーカルがクリアになって生々しく変化することを狙っているほか、生録系では演奏している雰囲気を再現したいと思って開発を行なっています。いわゆる空気感というものの再現です。空気感について厳密に定義があるわけではないのですが、ざわめき感とか、その場にいるような感じを得られるもののことを言いますよね。音の残像であったり、その場のノイズを含めた微小な成分が空気感であり、それを再現することができれば、ハイレゾ相当といえるのではないでしょうか。
――今回のDSEE HXは、従来のDSEEとどう違ってくるのでしょうか?
知念:7年前のDSEEでは、圧縮音源を対象にしており、我々が着目したのは高域成分がなくなるという点です。128kbpsのMP3だと16kHzあたりから上が削られてしまいます。その帯域があるかないかは、聴感上、さほど大きな差があるものではないのですが、やはり復元してやるとクリア感が出てくるのです。抜けがよくなるというか、クリアな音でダイナミック感が出てくる。そこで20~22kHzまで出せるようにしたのです。それに対し、今回はビット拡張技術を追加してダイナミックレンジを大きくしています。やはりハイレゾサウンドの魅力は細かい音の消え際がスムーズであり、空気感がハッキリしていること。そのため、音の消え際がきれいに再現できるように心がけています。
――ということは、帯域拡張自体は、DSEEと同じということなのですか?
知念:アルゴリズム的にはDSEEとほぼ同じですが、DSEEが20~22kHzまでであったのに対し、DSEE HXでは40~50kHzあたりまで拡張しています。もちろん192kHzのサンプリングレートであれば、96kHzまでの帯域があるわけですが、コンテンツ側が1ビットのAD、つまりΔΣ変調だとノイズシェーピングの影響が出てきてしまうのです。そのためグラフを見ても分かるとおり70kHz以上だとどうしてもズレてきてしまうのです。そのため「ノイズシェーピングの影響が出てくるところはやらないほうがいいだろう」という判断をし、40~50kHz以下に留めているのです。また先ほど、小野木が申したとおり、サンプリングレートは整数倍にしているので、44.1kHzのMP3やCDの音の場合は176.4kHzとなります。下手にスペックを優先させて192kHzにするよりも、整数倍に留めておいたほうが、音質的には効果が高くなります。
曲調が途中で変わってもシームレスに対応。電池持続は約半分に
――帯域拡張とビット拡張を行なっているということは分かりましたが、単純な計算でうまく処理できるものなのですか?
知念:やはり簡単なものではありません。われわれもハイレゾ音源とCDを数多く集めた上で、解析をしてきました。圧縮オーディオ、CD音源、ハイレゾ音源の組み合わせを用意して、比較解析を行なうのです。そうした結果から、高い周波数帯で消えて無くなった音などを予測する技術を作り出しているのです。たとえばボーカル中心の曲の場合、フォルマントの形状はあるけれど、周波数的には結構上のところまで出ており、その傾向というのものもつかめてきます。一方、ギターなどの弦楽器の場合、その高調波成分がキレイに出ています。これは周期成分なので、高調波に対して、山と谷が同じように復元されます。それに対しドラムの場合は、低域が支配的であり高域は聴感上ほとんどないけれど、分析すると、それでもしっかり出ているのです。これらをうまく復元していくことで、全体的にクリアになっていくのです。このように解析した結果に基づいて、あらかじめ予測モデルを当てはめて、それを元に補間すべき信号を生成し、足していくわけです。
――なるほど、いろいろなパターンを元にデータベースを作っているということですね。ということは曲によって帯域拡張、ビット拡張の仕方は異なってくるということなんですか? そうだとすれば、曲の途中で大きく雰囲気が変わるような場合、どうなるのかといった点も気になります。
知念:確かに、使う音源によって計算の仕方が変わってきます。ただし、予め10個とか20個のパターンを持って、それをスイッチングするという方法ではありません。スイッチングをすると、音楽の連続性が成り立たなくなってしまうため、あえてパターン分けはせず、それぞれの間でシームレスにつながる形になっています。パターン化をして一番マズイのは、間違ったパターンを適用してしまう危険性です。やはりウォークマンという製品なので、機能をオンにしたらひどい音になってしまう、というリスクは避ける必要があるのです。製品開発は、一番悪い結果を想定しながら技術を搭載するフェールセーフの考え方なので、このような手法をとっています。
――とはいえ、時々刻々と変化していく音に対して、リアルタイムに帯域拡張、ビット拡張をしていくというと、結構大変な計算になりそうですね。専用のDSPを搭載しているのでしょうか?
小野木:ZX1やF880などはAndroidを搭載したマシンなので、DSPは使わず、本体CPUの演算能力を用いて処理を行なっています。そのためDSEE HXをオンにすると電力消費量が大きく増えてしまい、バッテリーの持続時間が半分程度になってしまうというのがネックではあります。
知念:DSPがあれば、演算もかなり楽になるのですけれどね……。ただ、実はDSEE HX自体が膨大なCPUパワーを消費して、バッテリーの持ち時間が悪くなっているというわけでもないのです。そもそもMP3の再生と24bit/192kHzの再生では、バッテリーの持続時間が大きく異なるので、そちらの影響が大きいですね。
小野木:ZX1の場合、MP3再生が32時間、24bit/192kHzのハイレゾ再生が16時間となっています(編集部注:いずれもDSEE HXオフ時)。
「小さな音」に大きな効果。ウォークマン以外への展開は?
――ところで、先ほどビット拡張のお話の中で「音の消え際の復元」というものがありました。これは非常に気になるところですが、音が消える部分とは24bitあるうちの、下位ビットの動きの復元であり、しかも小さいレベルでの話しですよね? 逆にいうと、音量が大きい場合は、それほど細かな処理をしていないという理解でいいでしょうか?
知念:そのとおりです。やはり大きい音量においては、それほど差が感じられるものではないため、とくに小さい音のときの処理を気を使って行なっています。これによって、空気感を感じられるようになっていると思います。
――もう一つ、根本的な質問ではありますが、そうしたシミュレーションによる補間は別として、単純にサンプリングレートを上げ、16bitから24bitへと変換を行なうことには意味があるのでしょうか?
知念:このウォークマンでの再生でいえば、大きな意味を持ちます。というのも、16bit/44.1kHzで使うアンプ、DACと24bit/96kHzや192kHzといったハイレゾを再生する場合のアンプ、DACでは違う回路を利用する形になっており、当然ハイレゾのようのほうが、より高品質で繊細なサウンドを再現できるようになっています。そのためサンプリングレートを上げるだけでも効果はあるのです。
――なるほど、それは明快な答えですね。もう一つ、最後におうかがいしたいのは、このDSEE HXのPCでの利用についてです。ユーザーとしては、せっかくいい技術があるのなら、ウォークマンでの利用だけでなく、PCでの再生でもこの技術を使っていい音にしたいと思うわけですが、そういう利用法はできないのでしょうか?
小野木:DSEE HXはウォークマン本体に搭載されている機能であるため、現時点ではPCでの利用はできません。ただニーズがあるようならば、今後検討はしていきたいですね。
知念:プログラム的にはAndroid上で動かすCPUベースの処理であるため、PCへ移植すること自体は簡単です。あとは、どう活用していくかですが、ぜひ、今後にご期待ください。
――ありがとうございました。
NW-ZX1 | NW-F880 (64GB) |