トピック

「ハイレゾ」の基本をおさらい。DSDやFLAC、MQAなどの違いとは?

 「ハイレゾ」と一口にいっても、さまざまなフォーマット(形式)がある。フォーマットが変われば音の情報量ひいては音質が変わり、ファイルサイズも変わり、再生機器/ソフトウェア側が対応するかどうかも変わるから、フォーマット選びは重要だ。共通の技術、独自の部分を折り込みつつ、主要フォーマットについて解説していく。

ハイレゾフォーマット、色々あるけれど……

サンプリングレートとは

 デジタル音源は、その大半が「リニアPCM」。これは音の波形(アナログ信号)を一定サイクルで数値化(サンプリング)したデータのことで、その周期を「サンプリングレート」という。サンプリングを44100分の1秒ごとに実施すれば「44.1kHz」、96000分の1秒であれば「96kHz」、192000分の1秒であれば「192kHz」……と数値が大きければ大きいほどサンプリングの実施サイクルが短く、より情報量が多いことを意味する。つまり、この数値を見ると「時間に対しどれだけ細かく音を計測したか」がわかる。

量子化ビット数とは

 リニアPCM生成のためアナログ信号をデジタル信号に変換(AD変換)するとき、信号の振幅を何段階で表現するかを示す値のこと。値が大きいほど音の振幅を細やかに捉えられ、元の音の波形(アナログ信号)に近づけることが可能になり、そのぶん解像感が高い緻密な音を再生できることになる。

 量子化ビット数の多さは、データの解像度に直結する。たとえば、量子化ビット数が1(1bit)のとき表現の幅は「0か1か」の2段階となるが、2bitでは「00」と「01」、「10」と「11」の4段階を表現できる。同様に、4bitであれば16段階、8bitであれば256段階、16ビットでは65,536段階、そして24ビットでは16,777,216段階となり、きめ細かい表現が可能になる。

 音の波形データで扱える最大/最小音の比率「ダイナミックレンジ」は、この量子化ビット数で決まる。人間の聴覚が持つダイナミックレンジは120dB程度とされるが、量子化ビット数が16bitの場合96dBのところ、24bitは144dB、32bitならば192dBにも到達するため(1bit増すごとに6dB増加する)、ハイレゾ音源ならば微小な音から強大な音まで余裕で扱えるということになる。

元の波形データ。縦軸がサンプリングレート、横軸が量子化ビット数
サンプリングレートが高い(横軸が細かい)ほど、量子化ビット数が大きい(縦軸が細かい)ほど情報量豊富な"ハイレゾらしい"音になる
「ハイレゾ」の定義

 DSDを除くハイレゾ品質のオーディオソース(以下、ハイレゾ音源)は、上述したサンプリングレートと量子化ビット数で区別される。よく「CDスペック以上」という表現が用いられるが、それはCDのサンプリングレート(44.1kHz)と量子化ビット数(16bit)を基準にするという意味だ。

 電子情報技術産業協会(JEITA)の定義によれば、ハイレゾオーディオは「サンプリングレートと量子化ビット数のいずれかがCDスペックを超えている」必要があり、ハイレゾ音源もこれに準じることになる。

 一方、一般社団法人 日本オーディオ協会もハイレゾについて定義を行なっており、その再生能力を保証するオーディオ機器についてハイレゾ推奨ロゴが付与される。こちらの基準はアナログ系/デジタル系に分かれるうえ、ハイレゾ音源の基準を「96kHz/24bitのFLACやWAVに対応」とするなど、ファイルフォーマットについても言及がある。

日本オーディオ協会がハイレゾについて定義。その再生能力を保証するオーディオ機器について会員社に対しハイレゾ推奨ロゴを供与している

 このように、"音源がハイレゾかどうか"を決める厳格な統一基準はなく、上記のFLACやWAVなどフォーマットだけでハイレゾかどうか決まるわけではない。データ量がオーディオCD以上であること、特に量子化ビット数が24bit以上であることを求められていることからすると、「サンプリングレートが44.1kHz以上かつ量子化ビット数が24bit以上」の音源がハイレゾ、と考えてよさそうだ。もちろん、音質がどうこうという聴感上の基準ではないため、ハイレゾの条件を満たすから高音質とは限らないことに留意しておきたい。

オーディオコーデックとフォーマットの関係(PCMの場合)
非圧縮かロスレス圧縮か

 リニアPCMはサンプリングされたデータそのもので、変換処理をしないかぎり理論的には劣化しない。しかし、データの効率的な保存は考慮されていないため、サンプリングレートや量子化ビット数を増やすにつれファイルサイズが大きくなる。MP3など圧縮音源で数MBの曲がハイレゾで数十MB、数百MBになる理由はこれだ。

 そこで利用されるのが「可逆圧縮(ロスレス)」のコーデック。リニアPCMを符合化(ある規則に沿ってデータの並び/格納パターンを整える処理)することで、データをコンパクトにすることが目的だ。再生時にはリアルタイムに元のリニアPCMへと変換され、理論上音質の劣化は生じない。「FLAC」と「ALAC」が代表的な存在で、リニアPCMを約6割程度のデータサイズにまで小さくできる。符合化するときオリジナルの情報を完全に残すため、理論上音質劣化しないことが特徴だ。

 一方、「非可逆圧縮(ロッシー)」のコーデックは、データサイズがオリジナルの1割になるほど高い圧縮率を実現できる反面、符合化するときに可聴帯域外の音(人間の耳が感知できないとされる高周波数帯)を除去してしまう。ハイレゾの利点といえるリアルな音場・奥行きの表現は、可聴帯域外の音の存在が大きく影響していると考えられているため、非可逆圧縮のコーデックで処理された音はハイレゾに分類されない、という考えかたが支配的だ。実際、上述したJEITAと日本オーディオ協会の定義でも、非可逆圧縮された音源をハイレゾに含めていない。

主なデジタルオーディオフォーマットの圧縮率と音質の傾向
方式代表的な形式音質圧縮率
(PCMを100%として)
非圧縮WAV100%
AIFF
可逆圧縮FLAC60~70%程度
ALAC
非可逆圧縮MQA15~25%程度
MP3△~○10~20%程度
AAC
Ogg Vorbis
WMA
PCMかDSDか

 ここまでPCMを前提にハイレゾの定義を見てきたが、「DSD(Direct Stream Digial)」もハイレゾ音源の一種と認識されている。JEITAの定義では明確にされていないDSDについても、日本オーディオ協会の定義では、DSD 2.8MHz/5.6MHzの再生に対応する製品をハイレゾ対応機器として認めている。

 PCMとDSDでは、音の再現方法がまったくといっていいほど異なる。DSDはつねに1bitの振幅(1bitは「0」か「1」で表現される)で時間軸方向のみ細分化して記録する。

 PCMの場合、ビット数を増やすことで解像度を高めダイナミックレンジを広げることができるが、一方では量子化ノイズ(実際の振幅値を切り上げ/切り捨てるときの誤差から生じる歪み)が発生してしまう。DSDは1bit固定にして量子化ノイズが発生しない状態をつくり、サンプリングレートを大幅に引き上げることで情報量を確保するというわけだ。

DSDは「0か1か」という1bitの振幅で、時間軸方向の情報の疎密で音情報を記録する
(画像はソニーのHDDオーディオプレーヤー「HAP-Z1ES」製品情報ページより引用)

主要なハイレゾフォーマット

 非圧縮か圧縮か、圧縮だとしてロスレスかロッシーか、そもそもPCMかDSDか……といったデータのありかたがハイレゾのフォーマットであり、音の好みにくわえ利用する再生機器/ソフトウェアによって選びかたが変わる。いわゆる楽曲配信サイトで扱いがあるフォーマットを対象に、それぞれの特徴を解説しよう。

FLAC

分類:PCM
圧縮:有(ロスレス)
拡張子:.flac

 ハイレゾ音源を代表する存在が「FLAC(フラック)」だ。オープンソース(ソースコードが一般公開され自由に改良/再配布できるソフトウェア)のロスレスコーデックであり、ロイヤリティが発生しないことが普及の理由のひとつだが、ソースコードを読めば正しく非可逆圧縮が行なわれていることを確認できる安心感も、普及を助けたと考えられる。

 非圧縮のリニアPCMをソースとして作成(エンコード)されることが多く、ソースと比べ60%前後のファイルサイズに圧縮できる。対応するハード/ソフトも多い。現時点でiOSは出遅れている(一部アプリ側で対応済み)ものの、ハイレゾ対応をうたう機器であればほぼ確実にサポートされている。どのフォーマットを選ぶか迷ったときにはFLACを選択しておけば、まず失敗はないだろう。

ハイレゾ対応をうたうハード/ソフトと配信サイトのほとんどがFLACをサポートしている(画像はmoraの画面)

ALAC(Apple Lossless Audio Codec)

分類:PCM
圧縮:有(ロスレス)
拡張子:.m4a、.mov、.alac

 Appleがコンパクトルータ(AirTunes)を使いオーディオのロスレス伝送を実現したときに登場。当初は独自技術だったが、後日オープンソース化され、現在ではFLACに次ぐロスレスコーデックとして普及している。

 登場の経緯からしてApple製品に手厚くサポートされており、iTunesを利用してファイルを生成(エンコード)できる。ただし、Apple製品はハイレゾ再生を考慮していない設計のため、iOSデバイスではハイレゾ品質のALACファイルを再生してもCD品質まで情報を削られて(ダウンサンプリングされて)しまう。

 ここ数年でALACをサポートするオーディオ機器も増え、一部ハイレゾ配信サイトでも取り扱いがあるが、FLACのほうがより多くのソフト/ハードにサポートされていること、FLACと比べて有意な音質上のメリットがない(どちらも最終的には同じリニアPCMデータに復元される)ため、Apple製品で統一しているユーザ以外は積極的に選択する理由はないだろう。

Apple製ソフト/ハードで手厚くサポートされている「ALAC」も、ハイレゾ再生に利用できる

WAV

分類:PCM
圧縮:無
拡張子:.wav

 リニアPCMのコンテナフォーマット(さまざまな種類のデータを格納でき、音楽用途の場合はコーデックの選択が可能)として普及しており、ハイレゾ配信サイトでも豊富な採用実績を持つ。リニアPCMは非圧縮のためファイルサイズはかさむが、復号化(デコード)の処理が必要ないため、音質の観点から敢えてWAVを選ぶという人も少なからず存在する。

 デジタルオーディオ機器/ソフトウェアのほとんどで再生できるが、アーティスト名やアルバム画像などのタグ/メタデータの表示はあまり期待できない。データを格納することは可能だが、そのフォーマットが公式に定義されていないため、ある環境では表示できるが他ではできないという状況になっている。Roonのようなメタデータを参考に関連アーティストなどの情報をサーチするアプリケーションを使う場合、WAVよりもFLACやALACのほうが利便性は高い。

 サンプリングレートが352.8kHz(44.1KHzの8倍)または384KHz(48kHzの8倍)、かつ量子化ビット数が24bit以上のリニアPCMは特に「DXD」(Digital eXtreme Definition)と呼ばれる。もともとはSACDの制作を目的としたフォーマットだが(DSDが編集に適さないため)、現在では配信用フォーマットとしても活用されている。

DSD

分類:1bit
圧縮:有(ロスレス)
拡張子:.dff、.dsf

 ここ数年で対応ハード/ソフトが増え、ハイレゾ配信サイトでの取り扱いも順調に伸びているフォーマット。極めて短い時間にデジタル信号をオンオフし(1bit)、その情報の疎密でオーディオ信号を表現する。1bitなので信号は0か1しかなく、情報量を増やす場合はオンオフの時間単位をより短くすることで対応するため、その周波数の大きさが情報量に直結する。つまり、2.8MHzより5.6MHz、5.6MHzより11.2MHzのほうが情報量は多い。

 DSDはPCMと根本的に記録原理が異なるため、音量を変えるなどの波形データに関する処理ができない。そのため、録音から編集までの工程はPCMで進め、最終的にユーザの耳に届く音源を生成する処理(マスタリング)でアナログに戻しDSDとして録音する、という工程で制作された音源が大半だ。録音からすべてをDSDで行なう「DSD録音」の音源も存在するが、数は多くない。

 DSDの再生方式は「ネイティブ」と「PCM変換」に大別される。前者はDSDデータをそのまま再生するが、DSD対応チップ(ハードウェア)が必要となる。後者はDSDデータをPCMに変換して出力するため、データとしてはWAVとほぼ同じになる。微妙な差だが、ネイティブ再生とPCM変換では音のニュアンスが変わるため、ネイティブ再生にこだわるユーザは多い。

 なお、DSDをUSB経由でネイティブ再生する場合、「完全ネイティブ」と「DoP」(DSD over PCM)のどちらかを選ぶことになる。前者は文字どおり一切変更をくわえないが、後者はDSDの信号をPCMに偽装して出力することで、本来はDSDの信号を扱えないUSBでの再生を可能にしている。

DSD対応の再生アプリには、DoPを有効にするかどうかのオプションが用意されている(画像はiOS版Ne Playerの画面)

MQA

分類:PCM
圧縮:有
拡張子:不特定

 WAVに比べ数分の1程度と小容量ながらもスタジオマスタークラスの品質を実現できるという「MQA」(Master Quality Authenticated)は、他のハイレゾ向けファイルフォーマットと異なる特徴を持つ。人間の耳では識別しにくい高域情報を可聴帯域内に埋め込む「ミュージック折り紙」と呼ばれる手法により、高い圧縮率と小容量化を実現している。

 アナログ波形をデジタル化するときのフィルターは、瞬間的な音の波形にボケ・滲みを生じさせる「リンギング」の原因となるが、MQAではリンギングを10分の1程度にまで抑えるフィルターを使う。その結果10マイクロ秒単位という高い時間精度を実現、定位感・音場感をより正確に再現できるという。

 MQAのエンコーディング処理は44.1kHzから768kHzまでのリニアPCM音源に対して行なうことができ、FLACやALAC、WAVといった既存のファイル形式(コンテナフォーマット)に格納可能だ。専用デコーダが搭載された対応機器を利用すると"折り紙を開く"ことができ、本来のクオリティを発揮する。非対応機器を利用しても再生できるが、その場合は"折り紙を開けない"ため、MQAの独自情報を含まない通常のPCM再生となる。

 MQAは、e-onkyo musicでダウンロード配信している。ストリーミング型配信でも通信量を抑えて利用できるというメリットがあり、海外では音楽配信の「TIDAL」が、96kHz/24bitの高音質MQAストリーミング配信「TIDAL Masters」を展開している。

いち早くMQA対応を果たしたハイレゾポータブルプレーヤー「DP-X1」
音楽配信サービスと対応ハイレゾフォーマットの現状(2017年7月時点)
WAVFLACALACDSDMQAその他
e-onkyo music-Dolby TrueHD
mora----
OTOTOY--
レコチョク-----
mysound-----
groovers----

現状はFLACが有力な選択肢か

 ハイレゾフォーマットはざっくりいうと「PCM系かDSD」、PCM系であれば「ロスレス圧縮」か「非圧縮」が選択肢という状況が続いてきた。再生機器側の事情や、音の好みもあるだろうが、データ圧縮効果(ファイルの容量)と音質のバランスからいうと「ロスレス」が手ごろな存在だ。

 なかでも、ソースコードが公開されロイヤリティが発生せず、すでに多くのハイレゾ対応オーディオ機器でサポートされ、次期iOS(iOS 11)ではシステムレベルでサポートされるなどスマートフォンでも利用しやすいFLACは、今後もハイレゾフォーマットの中心的存在であることだろう。

 見渡せば、新顔であるMQAの登場や、ストリーミングサービスの普及など変化の兆しもあるが、オーディオフォーマットは魅力的なコンテンツがあってこそ。なにより、レコード会社/配信サービス会社のハイレゾに対する積極的な取り組みに期待したいところだ。

海上 忍

IT/AVコラムニスト。UNIX系OSやスマートフォンに関する連載・著作多数。テクニカルな記事を手がける一方、エントリ層向けの柔らかいコラムも好み執筆する。オーディオ&ビジュアル方面では、OSおよびWeb開発方面の情報収集力を活かした製品プラットフォームの動向分析や、BluetoothやDLNAといったワイヤレス分野の取材が得意。2012年よりAV機器アワード「VGP」審査員。