藤本健のDigital Audio Laboratory

第536回:MP3でどんな音が失われるのか【続編】

デモ用の音源でWAVと比較。音が後ろにズレる現象も

（2013/1/28 14:11）

　昨年4月に掲載した記事「MP3圧縮で、どんな音が失われるのか」はかなりの反響をいただいたが、その後、ここで行なった実験に関連する情報もいろいろといただいた。

　その中で、非常に気になったのが、元ヤマハの社員で、以前、音作りに携わっていた友人から聞いた「音源によってはMP3圧縮した際の音質劣化がハッキリとわかるものがある」という話。その違いがよく分かるという音源を入手することができたので、どんな違いがあるのかを改めて試してみることにした。

ヤマハのデモ音源で、オリジナルと変換後の違いをチェック

　実際の実験に入る前に、昨年の記事について簡単に振り返ってみよう。MP3は非可逆圧縮というタイプの圧縮をするために、MP3に変換することによって、音質の劣化がおこる。MP3の音をCDやWAVと聴き比べてみて、違いがよく分かる人、まったく分からない人もいると思うが、変換前、変換後でどんな違いがあるのか、差分だけを取り出して聴いてみようというのが、記事の趣旨であり、実験内容であった。方法は単純。WAVファイルと変換後のMP3ファイルの双方を用意し、波形編集ソフトを用いてWAVからMP3を引き算することによって、差分を抽出するのだ。ここでいう引き算とは、逆相をミックスするというものだが、その結果に驚いた方も多かったようだ。

　その実験自体はよかったのだが、記事の公開方法においてちょっと問題があった。それはデータの置き場所としてSoundCloudを使ったという点だ。SoundCloudは音を公開する上で非常に便利なクラウドサービスであるのだが、WAVをアップしても、SoundCloudのシステム側でMP3に自動変換されてしまっていたのだ。せっかく正確な差分を抽出していたのに、実際に聴けた音はやや変質してしまった音だったのだ。もっとも、SoundCloud上の差分の音を聴いた感じでは、手元で抽出したWAVファイルの音とほとんど違いを感じなかったので、大きな問題はなかったとは思うのだが……。

PLG150VLと同じVLシリーズで、筆者の手元に残っていて、今もしっかり動作したVL-70m

　そのリベンジの意味も込めて、改めてテストをしてみたいと画策する一方で、新たなネタも探していた。そんな時、友人のU氏とFacebookでやりとりをしている中で、冒頭の話が出てきたのだ。一般に販売されているCDなどでは、勝手にサーバーにアップするわけにはいかないが、U氏が当時使ったという音源は、ヤマハ社内でデモ用に作った曲とのこと。当時大きな話題となったヤマハの物理モデリング・シンセサイザ、VLシリーズのデモ曲だったのだ。具体的には「PLG150VL」というXG音源用のプラグインボード用のもの。ただ、U氏の手元には現在その音源はないので、ヤマハのデジタル楽器・商品開発部に協力をお願いし、探してもらったところ、原盤が見つかった。そしてこのDigital Audio Laboratoryへの掲載を快く承諾いただいたのだ。まずはその音を聴いていただきたい。元は2分07秒の曲だが、16bit/44.1kHzのWAVだとかなり大きいサイズになるので、特徴的な冒頭の38秒だけを切り出している。

音声サンプル
オリジナルWAV	plg150vl06.wav(6.46MB)

　U氏によれば、「メロディの音階が飛び飛びに上がったり下がったりしますが、その倍音成分も一緒に上がったり下がったりしながらオートパンのような感じで右へ左へ飛び回る音になっています。しかし、これをMP3に変換すると、その倍音成分が薄いかまたはまったく聴こえないようでした。そのため、MP3化すると倍音成分が欠損するのだろうか…と当時は感じました」とのこと。そんなことが確認できるのだろうかと、少しワクワクしながらMP3化してみたのだ。とりあえず128kbpsに設定して圧縮してみたのだが、ちょっと聴いた感じでは、どうもそんなにハッキリとは違いが分からないのだ。そのため、64～320kbpsまで5段階でデータを生成してみたので、聴いてみてほしい。

音声サンプル(MP3変換後のファイル)
MP3(64kbps)	plg150vl06_mp3_064k.mp3(303KB)
MP3(96kbps)	plg150vl06_mp3_096k.mp3(453KB)
MP3(128kbps)	plg150vl06_mp3_128k.mp3(604KB)
MP3(192kbps)	plg150vl06_mp3_192k.mp3(904KB)
MP3(320kbps)	plg150vl06_mp3_320k.mp3(1.50MB)

　どうだろうか? これらを周波数分析したのが以下のグラフである。これらはiTunesでエンコードしたもので、ビットレートのほかに、設定をデフォルトからは少しいじっている。具体的には「可変ビットレート」のチェックを外して固定ビットレートにするとともに、「ステレオモード」を「ジョイントステレオ」から「通常」にしている。このように設定することで理論的には音質は少し落ちるはずだが、その分、ビットレートによる違いが明確になるだろうという判断から、こうしている。

オリジナルWAV

MP3 64kbps

MP3 96kbps

MP3 128kbps

MP3 192kbps

MP3 320kbps

　またMP3の場合、64kbpsに設定すると通常サンプリングレートが44.1kHzから22.05kHzに自動でダウンコンバートされてしまうため、64kbpsでの音の劣化は明らかに分かる。96kbpsでは64kbpsのときほどハッキリとした違いではないが、やはり音の輪郭が少しボヤけるというか、音色の変化を多少感じる。しかし、正直なところ128kbps以上ではオリジナルとの差が筆者にはハッキリ分からない。まあ、聴き込んだ曲ではないので、微妙なニュアンスの違いが掴めていないからだとは思うのだが、多くの人にとってもすぐに判別できるような違いはないのではないだろうか? とはいえ、何か音の違いを見つけるコツがあるはずだと思い、U氏にこの128kbpsのデータを送って聴いてもらったのだ。しかし、ここでU氏からちょっと予想外の答えが返ってきた。

　「いま、改めて聴いてみたところ、当時感じた大きな違いは見られないばかりか、当時欠損してたように思われる部分が普通に聴こえてしまいました。あれれ、どうしたのでしょう?」と。

　U氏によると、当時使っていたのはLAMEエンコーダ。320kbpsにしても音の欠損はハッキリしていて、本来のVL音源の音を表現できないと考えたため、MP3での公開は見送ったという話だったので、やや期待外れという感じでもある。なぜ、このような結果になったのか、考察してみると、原因として考えられるのは以下の4通りではないだろうか?

1. MP3のエンコード性能が大幅に向上した
2. MP3のデコード性能(プレーヤー性能)が大幅に向上した
3. 今回のU氏の再生環境があまりよくなかった
4. U氏の聴力が落ちた

　このデモ曲制作時から10年以上が経過しているために、その間、確かにいろいろと技術は進化してきている。ただ、このDigital Audio LaboratoryでもこれまでMP3のエンコード性能やデコード性能についてはいろいろと検証してきているが、MP3自体の性能が大幅に向上したという印象はない。最近、細かな実験はしていないが、1と2の可能性は薄いのではないだろうか? 　3の可能性はありそうだし、事実U氏によれば、当時使っていたモニター環境と比較するとだいぶ劣るということを言っているので、そこが原因である可能性はあるが、モニタースピーカーで聴いても、モニターヘッドフォンで聴いてもダメだったようなので、これがすべてでもなさそうだ。となると、年齢に伴う人間の劣化か!? 医学的には年齢とともに高域が聴こえなくなっていくということなので、この可能性は十分にある。筆者もU氏と同世代ということを考えると、やはりもう音の評価なんて無理なのでは……とも思ってしまう。

子供の耳ならMP3の音の違いを判別できる?

3人の女の子に協力してもらった

　そこでちょっと思いついたのは、子供なら、このMP3の音の違いを簡単に判別できるのでは? というアイディア。各ビットレートでのエンコード結果をズバズバと当てられるとしたら、それはそれでちょっとショッキングでもある。そこで、小学校5年生の女の子3人に被験者となってもらい、聴き比べクイズにチャレンジしてもらった。再生環境としては、ソフト的にはWindows上のSoundForgeを用いる。これをASIOドライバを通じてRolandのQUAD-CAPTUREで鳴らし、そのヘッドフォン出力にSONYのMDR-CD900STを接続して聴くというものだ。

　3人ともオーディオをヘッドフォンで聴いた経験はほとんどないが、小学校前からピアノのレッスンを受けている子たち。が、結論から言ってしまうと、筆者の聴力と大した違いはなかった。3人のうち2人は64kbpsについては「少し音が悪い」といい、そのうち1人は96kbpsにおいて「何か、音が薄いというか…」と言い当ててはいた。しかし128kbps以上の違いが分かる子どもは誰もおらず、3人中1人は、64kbpsの違いも判別できないほど。子供なら判別できるという予想は残念ながら外れてしまったわけだ。

　もっとも、オーディオの音を判別できるようになるには、それなりの訓練が必要といわれている中、初体験で、しかも思い切り電子音というこのクイズには無理があったのかもしれない。ちなみに、サイン波を聴かせてみたところ、3人とも22kHzまでしっかり聴こえていたようなので、18kHzが限界だった筆者の耳の性能よりも明らかによかったのだが……。ただ、読者の方々の中には、これらの違いがハッキリと分かる人もいるだろう。オーディオの聴き取り訓練をした20代以下の人であれば、より明確に当てられるのでは……とも思うのだが、どうだろうか?

　では、ここでオリジナルのWAVと各ビットレートのMP3の差分がどんな音だったのか、改めて聴いていただこう。それぞれをWAVで作成したのが以下のものだ。ちなみに64kbpsにおいては、22.05kHzになってしまったものを44.1kHzにリサンプリングした上で、差分を作っている。

音声サンプル(WAVとMP3の差分)
MP3(64kbps)	sabun_064k.wav(6.62KB)
MP3(96kbps)	sabun_096k.wav(6.62KB)
MP3(128kbps)	sabun_128k.wav(6.62KB)
MP3(192kbps)	sabun_192k.wav(6.62KB)
MP3(320kbps)	sabun_320k.wav(6.62KB)

　このように差分を抽出すると、その違いは誰に耳にでも明確に分かるはずだ。やはり64kbpsだと、原型に近い音が聴こえるし、ビットレートを上げていくと、差分が小さくなると同時に、カサカサした高域中心の音になることが確認できるだろう。それぞれを波形で表示させると以下のようになり、ビットレートが低いほど大きな音量になっていることも分かるだろう。またそれぞれの周波数分析をしたものがこちらだ。こうした差分の周波数分析についても、昨年4月の記事でも行なったが、192kbpsや320kbpsといった高ビットレートであっても、必ずしも高域の音だけではなく、低域までが欠損していることが分かるはずだ。

MP3 64kbps

MP3 96kbps

MP3 128kbps

MP3 192kbps

MP3 320kbps

MP3 64kbps

MP3 96kbps

MP3 128kbps

MP3 192kbps

MP3 320kbps

MP3変換時に、音がやや後ろにズレる現象も

　ところで、ここまでの音を聴いてきた方の中には、最初に「プチッ」といったノイズが入っているのが気になる、という人も多かったのではないだろうか? 実は、このノイズ、筆者がわざと入れたマーカーなのだ。オリジナルのWAVファイルの一番先頭の1サンプル分に-12.0dBの信号=インパルスを入れており、これを目印にエンコード結果との重ね合わせを行なったのである。ここでちょっと妙な事実が発覚した。iTunesでMP3にエンコードすると、若干ではあるが音が後ろにズレるというか、曲の頭に空白が入るのだ。正確に確認してみると、どのビットレートであってもインパルスの位置が1,057サンプル分、後ろにズレているのだ。時間にすれば24msecとわずかではあるが、こうした現象が起こる。そのため、差分を作る際には、ここを正確に補正して逆相を足し合わせる必要があるのだ。

作成したファイルには、目印としてインパルスを入れている

インパルスの位置が1,057サンプル分、後ろにズレていた

　さらにこのインパルスについて各ビットレートの波形を拡大していくと妙な現象が見えてきた。320kbpsでは単に位置がズレただけのようだが、ビットレートを下げていくと、たった1サンプルのインパルスが、前後へと広がっていくのだ。

　ちょっと面白いので、インパルスのレベルを-6dBまで上げた上で、各ビットレートでエンコードを行なってみたのだ。その結果を波形で表したものが、以下のものである。

MP3 64kbps(-6dB)

MP3 96kbps(-6dB)

MP3 128kbps(-6dB)

MP3 192kbps(-6dB)

MP3 320kbps(-6dB)

　まあ、インパルスという本当に電気的な信号であるため、MP3エンコーダーにとって得意な音源ではないだろう。本来は音楽を圧縮するために開発されたMP3エンコーダーにこんな信号を処理させる実験自体、あまり意味のないものではあるかもしれない。とはいえ、ビットレートによって再現具合に結構な違いがあるし、時間軸的にズレたところにも影響が波及することがハッキリと分かったのは興味深いところだ。あくまでもオマケの実験ではあったが、MP3の特性のひとつが垣間見えた気がするが、いかがだろうか?

藤本健

　リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。　著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto。