藤本健のDigital Audio Laboratory
第968回
東京-大阪間セッションも夢じゃない!? 約30msec以下の極超低遅延伝送が凄い
2023年1月16日 12:08
遠隔地をつないでセッションをする。ある種、夢のような技術ではあるが、そうした遠隔地との超低レイテンシーオーディオ接続の世界が進化してきている。
この連載、Digital Audio Laboratoryにおいても10年以上前からそうした技術を取り上げてきたが、中でも目立った存在だったのがNetDuetto β、現在の「SYNCROOM」だった。
筆者も実際に遠隔地と接続して演奏したのだが、実はそれよりも遥かに低レイテンシーな技術も登場してきた。それが一昨年、昨年のInter BEEで取り上げた、ミハル通信の極超低遅延音声伝送システム「ELL」(エル=Extreme Low Latency)だ。
InterBEEでの取材だけでは、詳細まで分からなかったため、先日、鎌倉市にあるミハル通信に訪れ、改めてデモしてもらうと同時に、どんなシステムになっているのか詳細を伺った。
ミハル通信の取締役で技術統括本部長の尾花毅氏、事業戦略企画室室長の永田昌浩氏、技術統括本部ソフトウェア開発部の青木弘太氏、そして、ネットワーク部分を担うシステムを担当する輝日株式会社の代表取締役社長である佐藤大哲氏に話を聞いた。
遠隔医療支援システムの開発が“極超低遅延伝送”誕生のキッカケ
――一昨年、昨年とInter BEE展示されていたのを見て、興味を持ちました。どのような背景でこのシステムを開発することになったのか、教えて下さい。
尾花氏(以下敬称略):最初に当社(ミハル通信)について少し紹介をさせてください。当社は古河電工の100%子会社で、ビジネスの9割はケーブルテレビのインフラです。ケーブルテレビの業界においては、それなりに知られたメーカーではあるのです。
また放送局に対しても、デジタルエンコーダーやデジタル変調システムなどを納品しています。もともとはアナログのテレビ共聴設備からスタートした会社ではありますが、スカパーが始まってからデジタルへとシフトしていきました。私のチームがそのデジタル製品を手掛けているのですが、局用のチューナーを出したのがデジタル製品の最初です。
尾花氏:ケーブルテレビ業界も、2000年にBSデジタルが始まったタイミングでデジタル化が一気に進み、それに対応していきました。当初は親会社の古河電工を含め、大手メーカーのOEMがほとんどでしたが、その後だんだん自社ブランド比率が増え、今は8~9割が自社ブランドになっています。
MPEGエンコードなどは、当初、大手メーカーが行なっていましたが、当社も2010年あたりから取り組むようになりました。2011年の震災がきっかけとなり、各放送局ともBCP対策に力を入れるようになったのです。放送局のマスター設備が倒壊した場合などに備え、電波塔に簡易的なマスター設備を置きバックアップ装置として置いているのですが、そうしたシステムでも大きなシェアを頂いています。そんな中、4~5年前に8Kの内視鏡のシステムに取り組んだのが、ELLのキッカケともいえるものでした。
――内視鏡のシステムとは、どのようなものだったのですか?
尾花:現状、遠隔治療はまだ難しいのですが、専門医が遠くにいて、お腹の中を切っている先生にアドバイスする“遠隔医療支援システム”として、8Kの映像技術が注目されるようになったのです。ただ、それを実現するためには8K映像の“リアルタイム伝送”が必要です。
8K映像は非圧縮だと48Gbpsという膨大な伝送量になります。そこで、この膨大なデータをエンコードする装置の開発を始めました。NHKが8Kで行なっているHEVCを使ったエンコードでは100Mbpsまで圧縮しているのですが、我々も放送と同様のエンコーダーを開発し、Inter BEEに出展したりもしました。
ただ、実際にやってみるとレイテンシーが大きく、遠隔医療での実用化には無理があったのです。このエンコードでは1.5秒くらいかかり、その後のフレーム化や、RFまで入れると元の信号に対して3~4秒遅れてしまう。これでは「厳しい」と。市販の8Kテレビが使えるため、低コスト化という意味では大きかったですし、病院全体で見るといった用途では問題ないのですが、手術の支援という目的では低遅延モデルを作らないことには、この業界仕事にならないな、と。そこから、低遅延システムの開発が進みました。
永田:いろいろと試行錯誤の結果、具体的なメドが経ってきた中、極超低遅延ということでエクストリーム・ローレイテンシー「ELL」を商用登録し、エルと呼んで、ロゴも作りブランドとして押し出していくことになりました。
――もともとは映像、8K映像を伝送する話だったと。
永田:はい。ただ8Kだとシステム価格が非常に高くなってしまい、簡単にお客さんも導入ができません。一方で8Kもいらないので、ハイビジョンとか4Kで、というご要望もいただきました。そうなると桁が変わるくらい安くなります。そこでまずは2K、4Kを製品化していこうという事になりました。これを「ELL ライト」と呼んでおり、ようやくプロトタイプなどもできてきたところだったのですが、そのタイミングでコロナ禍にはいってしまった。
尾花:私自身、音楽家として活動していて、遠隔地とのセッションというのも増えてきていました。SYNCROOMを使ったり、レコーディングもファイルベースでやりとりするケースがあり、もしかしたら、これがビジネスになるんじゃないか、と考えるようになったのです。音声をプロオーディオのレベルでリアルタイム伝送できるようにする。これを映像機能に加えていったらどうか、と。
私もずっと映像機器を作っていますが、音声って、どうしても映像のオマケのような存在になってしまう。他社製品を見てもそうしたものばかりなので、ここではプロオーディオとして使えるものを作ろうという事になりました。
実は私は個人的に、マイクロフォンのメーカーも運営していまして。これは完全にアナログの世界で、マイクカプセルから設計していて、マイクプリアンプを自作したりもしています。が、やはりアナログは非常に好みが左右する世界。これを会社でやりはじめると、難しいところに陥ってしまいがちです。なので、アナログはやめよう、すべてデジタルで完結するように、映像機器にDanteやMADIを搭載するのがいいのでは、ということで進めていったのです。
Inter BEEで展示していたシステムとは
――それが、Inter BEEで展示していたシステムということですね。実際どんなことをしているのですか?
青木:DanteではPTP=Precision Time Protocolという仕組みを使って同期をとっています。これを通すためには、PTPに対応したネットワークスイッチが必要なのですが非常にクリーンなLAN環境でないとDanteを通すことはできません。そのため遠隔地との接続はできないのですが、放送波のIP伝送技術を活用する方法を考えました。
尾花:放送局は通常、放送局のマスターと送信所の間をマイクロ波で伝送しています。しかし、先ほども触れたBCP対策ということで、バックアップとしてIPネットワークの回線を使いたいという需要があり、それを当社のシステムで実現させています。ここには、音声とは比較にならないくらい、ものすごい精度のクロックが用いられており、その技術がしっかりと確立されているのです。今回それを利用したわけです。
――ということは、遠隔地とDante接続ができる、ということなのですか?
青木:遠距離だと、どうしてもある程度のレイテンシーは発生するため直接のDante接続は無理があります。そこで、いったんDanteを終端し、Danteのオーディオ信号を非圧縮のPCM信号に変換した上でマルチチャンネルで伝送しつつ、Danteのクロックを当社独自の技術で送ることにしました。
――それがInterBEEで展示していたデモであり、今日もここでセッティングしているものなのですね。どうなっているのか、少し説明していただけますか?
永田:今回、ここに送信側(Transmitter)のELLと受信側(Reciever)のELLの両方を設置しています。
永田:送信側にはRMEのMADIfaceXTを接続して、受信側にはアストロデザインのAudio Monitor AM-3825を接続し、ここにマルチチャンネルのオーディオを伝送しているのです。
永田:システム系統図をご覧いただくと分かりやすい思いますが、この送信側・受信側の間にフレッツ網を置いてあり、東京・大阪間を往復させています。そして送信側と受信側の双方をオシロスコープに接続しているので、信号にどれだけの遅延が発生するかを測定できるようになっているのです。この際、フレッツ網を通さずに直結すると1.3msecという数値が出ます。
――ローカルとはいえ、1.3msecとは非常に小さいですね。普通のオーディオインターフェイスでも数msecはかかります。
尾花:PCを使った場合、ドライバやオーディオインターフェイス側でバッファを使うため、どうしてもレイテンシーが大きくなってしまいます。しかし、今回はPCがまったく介在していないため、レイテンシーを抑えることができました。
MADIfaceを使っていますが、USBは利用していないので、マイク入力がそのままMADIに変換されるだけ。内部のDSPは通っていますが、単なるADコンバータとして使っている形でダイレクトモニタリングに近い状況です。そのため、ほとんどレイテンシーが発生しません。DAのほうも同様であり、1.3msecのレイテンシ-というのは、そうしたオーディオインターフェイスも含めてのものとなっています。
輝日がA地点とB地点を直結。東京-大阪間で27.3msec
――PCを介在させなければ、ここまでレイテンシーを抑えることができるのですね。ここからが本題だと思いますが、どのように遠隔地を接続しての低遅延を実現させるのでしょう?
尾花:できるだけ低遅延のネットワークを利用しながら、そこに当社独自の技術を使って正確にクロックを送る、という形なのですが、普通にインターネットを使うとなかなか低遅延を実現するのが難しい。そこを輝日さんに解決してもらいました。
――ミハル通信と輝日は、もともと何か関係があったのですか?
佐藤:以前、当社(輝日)とDNPさん、アストロデザインさんで5Gネットワークを利用した8Kの伝送の実験、展示などを行なった経験がありまして、アストロさんからは映像伝送、8Kでの伝送についていろいろと勉強させてもらいました。そんな中「アストロとミハルで一緒に8Kの伝送実験をするが、その際にフレッツ網を使いたいので、手伝ってもらえないか」という相談をいただいたのが最初です。“フレッツに詳しい集団”という感じで呼んでいただいたのですはないかと(笑)。その後、様々な実験を繰り返していきました。
――輝日の技術が入ることで、どんなメリットがあるのでしょう。
佐藤:フレッツはNTT東日本、NTT西日本によるNGN(次世代ネットワーク)であり、高速で低遅延な通信が可能となっています。このフレッツを使っての拠点間接続を行う場合、VPNを使って行なうのが一般的です。
ただ、普通に接続を行なうと、インターネットを通る形となりNGN網の外に出ます。そうなるとプロバイダに通信が行き、プロバイダからプロバイダへと流れたり、NTTからプロバイダへ……と複雑な経路をとるため、混雑したり、不安定になるなど、どうしても遅延が大きくなってしまうのです。
そこで当社では、NGN網内で完結する通信を実現させています。A地点からB地点へ接続するのに、NGN網内で完結すれば関与する部品も減るので遅延を少なくできます。そして不安定さも排除することが可能です。当社の仲間の会社であるソフトイーサがA地点、B地点のアドレスを割り出し、それぞれを直結するのです。
ただし、NTT東日本のフレッツとNTT西日本のフレッツは、それぞれ別モノであり、1つのNGN網となっているわけではありません。今回のように鎌倉と大阪を接続する場合、2つのフレッツ間を橋渡しする必要があるのですが、このときもインターネットに接続するのではなく、当社の回線を通じて橋渡しすることで、最短のルートを築くことができるのです。
――実際、今回の接続での遅延はどのくらいになっているのですか?
青木:オシロスコープをご覧になると分かる通り、26msecとなっています。これは大阪で折り返してきた信号なので、鎌倉-大阪間の往復ということになります。
佐藤:大阪にある当社の設備内で折り返すルーティングを組んでいるので、トランスミッターから出た信号が、大阪まで行き、そこで折り返して、ここ鎌倉まで戻ってきているわけです。
――ということは、仮に大阪に同じ設備を置いて、鎌倉と大阪でセッションをするとしたら、26msecの倍の時間がかかるということですか?
佐藤:いいえ、26msecに1.3msecを加えた27.3msecになる、という計算になりますね。
尾花:鎌倉-大阪間で27.3msecであれば、十分セッションも可能だと思います。実はまだ私自身、そのセッションを行なっていないので、ぜひ早く試してみたいところですが、これが製品化できればいろいろなことが実現可能になると思います。遠隔地でのセッションも可能ですし、レコーディングスタジオと遠隔地を接続してのリアルタイムレコーディングもできるでしょう。
今回の実験では、ここにあるStudio Oneに入っているマルチトラックのデータをマルチチャンネルの状態で伝送し、大阪で折り返して、ここに戻ってきています。曲によってトラック数は異なりますが24bit/96kHzの32~64トラック程度のデータとなっているので、これを見ても十分実用レベルなところに来ていることはわかると思います。
尾花:すでに大手のライブ音響の会社からも引き合いがきていたり、全国のホール設備を設置しているメーカーからも話が来ているので、ELL ライトが製品化されれば、拠点間を接続してのコンサートなどに使われるようになると思います。
拠点間オーディオ接続で、ライブやレコーディングが大きく変わる?
――ELL ライトはどれくらいの価格になるのでしょうか?
永田:本日のデモに使っているのは、大きな機材になっていて、中に複数の基板が接続されていますが、これをよりコンパクトな形にできるようハードウェア設計を進めており、夏以降に完成する予定です。
永田:価格的にはまだ検討中ですが、映像と音声の両方を送る形なので150万円くらいになると思います。対で使うのが基本になりますから、併せて300万円程度となり、コンシューマーが簡単に導入するものではないかもしれません。
尾花:一方で、映像伝送を省きオーディオだけを伝送する機器を、FM局向けにリリースする企画も進行中です。FM局ではISDNを用いて拠点間でのオーディオのステレオ伝送する装置が広く使われていますが、ISDNの廃止が迫られる中、その代替となるシステムが求められています。
ISDNの機材が50万円程度なので、それ以下に抑えられるように、と考えているところです。さらにコンシューマレベルにするには、もっと安くしていく必要がありそうですが、実際どこまでやるか。ターゲットをどこまで定めるかは、今後検討していきたいと思っています。
――FM局においての代替機だとしても、本体のほかにネットワーク費も必要になるわけですよね?
尾花:ISDNがなくなり、IPに移行するのには工事に時間がかかるし、料金が高くになってしまいます。これを輝日とどのような形でネットワークサービスができるのかを検討していければと考えています。
佐藤:拠点間サービスを前提に、現状サービスで対応する場合、帯域優先を使うと1拠点あたり3万円……ISDNと比較して、かなり割高になります。もちろん専用回線を使ったら桁が変わってしまいます。我々としても単純なフレッツ光や帯域優先しない形を併用したり、使用時間を絞るなどすることで、ISDNから負担額をあまり増やさずに移行できる形を検討していきます。