藤本健のDigital Audio Laboratory
第921回
超高音質ネット動画配信Live Extreme。“そのまま届ける”工夫とは
2021年12月6日 08:00
コルグによる高音質・高画質のインターネット動画配信システム「Live Extreme」。7月に初の有料配信がスタートするタイミングで、コルグに取材をして記事で紹介したが、その後も輝日のコンテンツ配信システムeContentとの連携を行なったり、Jストリームと組むなどして足回りを固める一方、有料・無料含めさまざまな配信を行ない、実績を作ってきている。
そうした中、先日KORG Live Extremeの“開発者ブログ”なるものが10月にスタートし、そこでの内容がSNSでも話題になっていた。技術的な話題が多く、難解な部分も少なくないが、配信における音質劣化や画質劣化の原因がどこにあるかなど、配信に携わっている多くの人にとって気になる情報もいっぱい。そこで、このブログを書いている、Live Extremeの開発者である、コルグの大石耕史氏にいろいろ話を聞いてみた。
加速するLive Extreme
--前回7月にお話しを伺って以降もプラットフォームがどんどん増えているようですね。
大石氏(以下敬称略):そうですね、従来からずっとお付き合いのあるIIJに加え、Thumvaでのサービス開始の話までしていたと思いますが、輝日のeContentとの連携を9月に発表しました。実際サーバーとのつなぎ込み実験は春ごろから行なっていましたが、サービス体制が整ったことでスタートさせた形です。さらにそのすぐ後にはJストリームとの連携も発表しました。JストリームはIIJ同様、下回りを支える大手であり、数千人、数万人の視聴にも耐えるプラットフォームを持っているのです。
また単に配信するだけでなくチケッティングからイベント実施、オンライン配信を行なうとともに顧客のデータベース化を行なう、顧客情報分析をしたりアンケート実施、さらにはDM送信やグッズ販売まで、すべてをワンストップで行なうイベキャスというサービスも行っており、そのメニューの一つとしてLive Extremeが入ったので、今後さまざまな展開ができそうです。
--その一方で、さまざまな面白そうな配信も行なっていますよね?
大石:藤田恵美さんの有料配信を行なった後には、井出靖さん率いるThe Cosmic Suite Ensembleの初のライブショーをThumvaから配信しています。さらに11月には 小西遼さんのソロプロジェクト、象眠舎のライブ配信を行ないました。
ここではHPLを用いたバイノーラル配信を主音声で配信する一方で、初めて副音声配信というのを行なったのです。これはライブ配信が終了してすぐに小西さんがスタジオに入って自分の配信映像を見ながら、曲の解説をしたり、秘話を語るなど、ファンにとって非常に面白いコンテンツとなりました。
一般的な音楽のライブ配信だと、リアルタイムで聴くためのチケットで7割を売上、その後アーカイブ期間中に3割が売れると言われていますが、象眠舎の場合はアーカイブ期間中に“リアルタイムの倍”が売れるという現象が起こりました。今後の音楽ライブ配信のビジネスを考えるうえで、大きな指針となる実験ができなのでは……と思っています。
また11月11日は“ベースの日”ということでべースにちなんだ配信を無料で行ないました。これは久しぶりに当社主催で行なった配信で、eContentを用いています。具体的にはフルHD+ハイレゾ(96kHz/24bit)、フルHD+ロスレス(48kHz/24bit)の2種類の配信フォーマットを用意し、限定1,000名で配信しました。そして12月4日に行なうのが(※注、インタビューしたのは12月2日)、オルタナバンドである羊文学の配信です。これがeContentを用いた第2弾となるのですが、今回ちょっと面白い試みをするんです。
--面白い試みとはどういうことですか?
大石:今回、ビルボードライブ横浜でライブを行うのですが、ビルボードライブとLIVE LOVERSがタッグを組む形になっています。ここではStreaming+での通常配信の他に、Live Extremeを用いたプレミアム高画質・高音質配信を行なうのです。通常配信のほうは2,800円(Club BBL会員は2,400円)、プレミアムのほうは3,200円(Club BBL会員は2,800円)と400円差。これで、どのくらいの売れ行きの差が出るか、ある種マーケティング調査を行なおうと思っているのです。
--通常配信とプレミアム配信、どのくらいの差があるのですか?
大石:実は、大元は同じで、映像はSDIを通じてフルHDで、音声は96kHz/24bitでミックス/マスタリングされたものが、通常配信=Streaming+ではアナログ経由で、プレミアム配信=Live ExtremeではAES/EBU経由でデジタルのまま受け取ります。
これをそれぞれでエンコードして、別々に打ち上げ=アップロードしているんです。Streaming+は映像はH.264で音声はAACとなっているのに対し、われわれのLive Extremeでも映像はH.264、そして音声はロスレスを用いトータル8Mbpsで打ち上げています。この8Mbpsが視聴者にそのまま届くので、音質・画質ともに、かなりの差が出てくるのです。
--音声はAACとロスレスなので、それなりに違いが出るであろうことはわかりますが、映像は通常配信もプレミアム配信もフルHDのH.264だから同じということですね?
大石:実際に見比べていただけるとわかりますが、ここがかなり違うのです。H.264にエンコードして打ち上げるところまでは大きな差はないかもしれませんが、通常配信においては、サーバー側で再変換をかけるために、どうしても劣化してしまうのです。これは映像だけでなく音声のほうでも同様で、現場でAACに変換したものを、さらにサーバーで再変換するために、ロスレスとの差はかなり大きくなります。
--サーバーでの再変換をするって、とっても無駄で画質・音質を落とす悪影響しかないようにも思いますが、どういうことですか?
大石:藤本さんもDTMステーションPlus!での配信をしているので、よくご存じだと思いますが、打ち上げる際にRTMP(Real-Time Messaging Protocol)というプロトコルを使いますよね。これ、もともとはMacromedia(現Adobe)のFLASHプレイヤーに対して動画配信するために開発したプロトコルなんです。いまFLASHはなくなってしまったため、RTMPのままでは再生できないため、ブラウザで見えるようにするための変換をするのがストリーミング・サーバーです。
具体的にはHLS(HTTP Live Streaming)やMPEG-DASH(Dynamic Adaptive Streaming over HTTP)といった形式にリアルタイム変換して、クライアントに配信しており、その中身はH.264とAACというのが一般的です。もともとH.264やAACで来ているのなら、それを再変換するのって無駄のようにも思えますが、そこには大きな理由があるんです。その理由の一つがAdaptive Bitrateというものです。Adaptive Bitrateとは、コンテンツの情報量(圧縮率)を再生クライアント側の通信状態に応じてリアルタイムに変更させる技術で、低速回線でも再生が止まってしまう可能性を抑えることができます。
--回線状態が悪くなると、ストリーミングは止まらないけれど、急に画質が落ちることがあることがある、アレですね!
大石:その通りです。たとえばストリーミングサーバーで、1Mbps、4Mbps、8Mbpsの3種類を作って同時に流しておけば、クライアントの通信環境に合わせて随時切り替えていくことで、映像や音が止まってしまうことなく、最適な映像、音声に切り替えながら視聴していくことが可能になるんです。その際、もともと来た信号だけは再変換せずにそのままスルーさせるという方法もあるはずですが、プログラムの世界においては例外を作ると処理が複雑になってしまうので、どうしても再変換をかけることになり、結果として劣化が起きてしまうのです。
この仕事をしていると、どうしてもさまざまなライブ映像がどうなっているか気になり、いろいろなコンサートを見ています。そうした中、目立つのがアイドルモノのライブです。レーザーを使う演出が多く、そうした場合、2度のエンコードを行なうことで、ブロックノイズが発生するんですよね。一方で、音に関しても同じビットレートのAACだとしても、2度のエンコードをする結果、音質劣化が大きくなり、とくにロスレスとの差は大きくなりますね。
--実際どのくらい音質が落ちるかは、簡単に比較する方法はありますか?
大石:今回の羊文学の通常配信とプレミアム配信を比較すると、その違いを実感できるとは思いますよ。一方で、先日ちょっとした実験をしてみました。その内容については先日ブログでも書かせてもらいましたが、YouTubeで推奨されているライブ・エンコーダーの音声設定は図のようになっています。この推奨設定の音声(AAC-LC 128kbps) にH.264(1080p30)映像をつけてYouTubeでライブ配信したところ、Adaptive Bitrateによって6種類のデータが生成されたのです。その内容が下の図ですが、よく見ると映像は6段階になっているものの、音声はHE-AAC(44.1kHz,2ch,48kbps)と、AAC-LC(44.1kHz,2ch,128kbps)の2種類しかないんですね。
--思ったより単純ですね。とはいえ、先ほどの話からすると、まず最初に打ち上げるときに、いわゆるAAC、つまりAAC-LCに変換し、さらにメディアサーバーで高圧縮のHE-AACか一般的なAAC-LCに変換するというわけですよね。
大石:その通りです。その際にどのくらい音の違いがでるか、矩形波を入力して波形がどのくらい変化するか、またスペクトルがどう変わるかを見てみました。まず元となる矩形波がこれです。それを手元のライブ・エンコーダーでAAC-LCの128kbpsに変換したのがこちら。これを見ると、矩形波に少し乱れが生じるとともにスペクトルを見ると17kHz以上で徐々に下がっているのが見て取れます。
それをアップロードして、今度ストリーミング・サーバーでAAC-LCに再変換かけたのがこれです。同じAAC-LC 128kbpsではありますが、矩形波がさらに乱れるとともに、16kHz以上がばっさりと切り落とされているのがわかります。これが再変換による音質劣化ですね。
さらに、それがHE-AAC 48kbpsへの変換だと相当劣化しているのがわかると思います。ライブ・エンコーダーでのAAC-LCの変換結果と、ストリーミング・サーバーでのAAC-LCへの変換結果を重ね合わせて比較したのがこちら。かなり違うのが分かると思います。それに対し、Live Extremeの場合、ロスレスのまま最後まで届くので、どれだけ違うかがご理解いただけるのではないでしょうか?
--これはとってもわかりやすい比較ですね。Live Extremeの場合、Adaptive Bitrateについては考えず、とにかく入れたものがそのまま届くからこそ、音質、画質ともにいい、と。
大石:われわれはビットパーフェクトに徹底的にこだわっているので、ストリーミング・サーバーで再エンコードされてしまったら、アウトです。だからこそ、そうならないようにしつつ、特別なプレーヤーソフトなど不要で、ブラウザでそのまま視聴できるようにライブ•エンコーダー内でHLSやMPEG-DASH形式に直接エンコードして、配信サーバーにアップロードします。これならば、そのままブラウザで再生できますから、配信サーバーはそのまま何も変えずに届けるだけ。だから画質も音質が変わらずに、視聴できるわけです。
--でもちょっとだけ感心したのは、HE-AACは48kbpsの割には、思ったより酷くは劣化してないんですね。
大石:HE-AACはとにかく小さなビットレートにしつつも、それなりの音質を維持するものなんですね。実際にはサンプルレートを半分にするため、48kHzを送っても内部的にはいったん24kHzで処理するんです。でもデコードの際に、48kHzに戻すとともに、欠けてしまった高域を補完するシステムをいれているんです。もちろん、オリジナルとは違う高域成分にはなるものの、試しに補完なしの音を聴いてみると、かなり酷い音なので、結構高精度な補完技術なんですよね。もっとも、24kHzに落とす前に、スペクトル包絡は保存しているようなので、その辺はうまく再現しているんでしょうね。
--今度機会があれば、HE-AACの音質にまつわる実験を自分でもしてみたいですね。今後のLive Extremeの進展も楽しみにしています。
大石:HE-AACは面白い実験だと思いますよ。Live Extremeは、今後もっと多くのライブ配信で採用され、多くの人に届くようにしていくために、さまざまなアプローチをしていくつもりなので、ぜひ楽しみにしていてください。