藤本健のDigital Audio Laboratory
第642回:96chの“音響樽”、リモコンで歌い踊る初音ミク。「コンテンツ東京」レポート
第642回:96chの“音響樽”、リモコンで歌い踊る初音ミク。「コンテンツ東京」レポート
(2015/7/6 12:25)
7月1日~4日、東京ビッグサイトで「コンテンツ東京2015」というイベントが開催された。ヤマハの広報から「出展するので見に来てほしい」との連絡はもらっていたので多少気にはなっていたものの、音関係のイベントではないので、余裕があれば……という程度に考えていた。
7月1日は、たまたま昼に東京電機大学の学生と話をする機会があり、就職に関する相談を受けていたのだが、その後、コンテンツ東京に行くというので、せっかくだからと一緒に行ってみた。先生や友達が出展しているので、その様子を見に行くということだったので、覗いてみたところ、「音響樽」という、すごいシステムが展示されていたのだ。これは当初の目的のブースであるヤマハと同じコンテンツ東京2015の中の「先端コンテンツ技術展」で展示されていたのだが、ほかにもクリプトン・フューチャー・メディアも音関連の展示を行なっており、いずれもかなり面白い内容だったので、レポートしたい。
究極のリアル96chサラウンドシステム
さっそく、その東京電機大学が出展していた音響樽から。「先端コンテンツ技術展」の中では結構大きなスペースでのブース展示ではあったのも理由の一つではあるが、ほかのどの企業のブースよりもインパクトのある、変わった雰囲気を醸し出していた。大きな樽が2つ、ドン、ドンと置かれている。その樽の中を覗いてみると、中には数多くのスピーカーが埋め込まれた小部屋となっているのだ。実際には壁面と天井、合わせて96個の12cmフルレンジスピーカーであり、これによってさまざまな空間、音場を再現できる「世界初の没入型聴覚ディスプレイ装置=音響樽」となっているそうだ。今回の展示ではまったく同じ音響樽が2台置かれていたが、いずれも基本的に入れるのは1人であり、1回約5分間のデモが行なわれるとのことだが、行ったときには、すでに予約でいっぱい。なんとか、全プログラム終了後に1回体験させてもらった。
入ってドアを閉めると、無数のスピーカーに囲まれた異質な空間。さっそくクラシック音楽が流れてくると、すごく立体的な感じで聴こえる。5.1chサラウンドや7.1chサラウンドなどとは比較にならないほど、リアルな空間であり、まるでホールで聴いているような感覚を得られる。真ん中に椅子があるので、最初は座って大人しく聴いていたが、頭をいろいろな方向に向けても、また立っても、その立体感は変わらない。各スピーカーに耳を近づけて聴いてみると、なるほど、それぞれ微妙に違う音が出ていることが認識できるが、96chの究極のサラウンドシステムといったところだろう。
5分間のデモでは、いくつかの違う会場でのオーケストラ演奏に切り替わったり、能の舞台の音に切り替わる度に、瞬間移動したような感覚になる。また、5分間のデモの途中で「すみません、デモの途中ですが、マイクのチェックをさせてもらいます」という声が横から聴こえるとともに、人がやってきてガサガサガサという、機材をいじる音が聴こえるのだが、これもデモの1つ。かなりリアルで驚いてしまう。
担当者に話を聞いたところ、これは同大学の伊勢史郎教授が1993年に「境界音場制御の原理」の提案をしたことからスタートし、2006~2008年に総務省のSCOPEプロジェクトとして実験が行なわれたのち、2010~2016年の期間、JST CREST(国立研究開発法人 科学技術振興機構・戦略的創造研究推進事業)の聴空間共有プロジェクト研究チームとして実証実験されているという。また、この研究は東京電機大学だけでなく、九州大学、明治大学、情報通信研究機構の4つの研究室の共同で行なわれており、それぞれの研究室に音響樽が1つずつ設置されているとのこと。東京ビッグサイトの会場には、東京電機大学のものと、明治大学のものが持ち込まれたのだそうだ。
では、この96chのサウンドはどのように作られているのか? これは音響樽の前に展示されていたフラーレンマイクロホンという80chのマイクアレイを使って収録している。それぞれ80個の無指向性マイクが取り付けられており、これで録音しているのだが、なぜ96chではなく80chなのか? これは、フラーレン構造であることで、360度、全方位的に音が捉えらえるために、こうしていること。音響樽内の逆システムを畳み込み演算することで、再生信号を計算すると、リアルな空間として再現できるようになっているそうだ。
なお、この2つ展示されていた音響樽はそれぞれ独立して動いており、それぞれ96chの音はSteinbergのDAW、NUENDOを通じて再生されている。また96chの音を出力するためには、PC内に設置したRMEのMADIボードを使って行ない、そのMADI信号を光ケーブルで音響樽まで送り、そこに置いたRMEのMADI-DAコンバータで音を出しているとのことだった。
今回は展示していなかったが、このフラーレンマイクを音響樽内に置くことで、さらにユニークな実験ができるのだという。担当者はこれを「どこでもドア」と呼んでいたのだが、ホールや教会といった場所はもちろんのこと、森の中や海などの自然環境でのインパルスレスポンスを録ってきた上で、その空間を再現できるコンボリューションリバーブを作ると、そこで自分で声を出したり、手を叩くと、まるでその空間にいるような反響を得られるのだという。機会があればぜひ試してみたい。
この音響樽は2016年のCRESTプロジェクト終了後は、民間企業との共同研究などを経て、市場投入して実用化をしていきたい、とのことだ。
ヤマハはマルチアングル動画やヘッドフォンの立体音響など
次に紹介するのはヤマハ。東京電機大のブースと比較すると1/4程度の小さなところではあったが、ここではヤマハの研究機関が作り出した2種類の技術を展示していた。まず1つ目はChimeCa(キメカ)というシステムで、マルチアングル動画ソリューション。簡単にいうと、同じ場所で複数のカメラで撮影した別アングルの動画をすべて同期させてしまう、という技術だ。会場ではダンサーが音楽に合わせて踊っている様子を、集まった人たちがiPhoneでビデオ撮影。それをWi-Fiを使って、ChimeCaというボックスへアップロードすると、すぐに同期して再生することができた。
これは音を手掛かりにして同期させているので、さまざまなアングルで撮影したり、場合によっては、観客側など関係ない方向を撮影しても、ピッタリと同期するようになっているのが面白いところだ。こうした同期、確かにビデオ編集ソフトがあれば、オーディオ波形の頭を揃えることで、同期ビデオを作成することはできる。ただし、尺が長くなってくると、いろいろと問題も起きてくる。たとえば、3分の動画において頭は揃っていても、最後では1秒程度のズレが生じる可能性があるが、ChimeCaでは、そうしたズレも補正して同期してくれるのが大きなポイントとなっている。
ヤマハの担当者に聞いてみたところ、PCのCPUパワー次第で、いくらでも多くの動画の同期が可能だが、これまで23台のiPhone動画を同期させたことがある、とのこと。興味深かったのは、そうしたiPhoneビデオの同期実験をした結果、iPhoneのロットごとにサンプリングレートに違いがあり、最大で17Hzの差が出たとのこと。まあ、短いフレーズであれば、誤差のうちであるが、20分のビデオになると0.46秒のズレが出てくるので、誰の目にもズレているのがハッキリとしてくるが、そうした問題をなくしてくれるというわけだ。
このように同じ音を手掛かりに同期させるシステムなので、必ずしも同じ場所で撮影したビデオでなくても、同じ曲を違う時間、違う場所で再生して、それに合わせて踊ったものを撮影したビデオを同期させるといったことも可能になるとのこと。アイディア次第で、いろいろな使い方が考えられそうだ。
同じヤマハブースでデモを行なっていたもう一つは「3D Headphone Technology」というもの。これはヘッドフォンで音を聴いたとき、どこで鳴っているかを自由に設定できるという技術。人の声でも、音楽でも、予め録音されているデータを用意し、それがどこで鳴っているのかをグラフィカルに指定すると、左右はもちろん、近くか、遠くか、前か後ろか、さらにはこれまで難しかった上下への音の配置も、自由に指定でき、再生しながら動かすことができるのだ。単にPANや音量だけでなく、頭部伝達関数を用いてシミュレーションしている。またユニークなのは、音源を1つだけでなく、複数鳴らすことができる、という点。つまり複数話者を設定し、ある人は前方左に、もう一人は後方右に、さらに3人目は後方左の上のほうにいて、お互いが会話をしているように設定するといったことが可能になるため、さまざまな応用ができそうだ。このシミュレーション自体、かなり軽く、PCのCPUで計算させるだけでなく、スマートフォンなどのCPUでも十分利用可能とのこと。実際、PCで実験してみたところ同時発音70までは問題なく動いているとのことだけあって、確かに軽い。ARとの組み合わせなど、いろいろな使い方ができそうだ。
クリプトンは初音ミク関連の展示。リアルタイムで歌い、しゃべるソフトも
3つ目に紹介するブースは、クリプトン・フューチャー・メディア。同社ではリアルタイム3DCGコントロールシステム、R3というものを用いて、初音ミクを動かす展示を行なっていた。同社開発のR3フィルムに立体的に投影されている初音ミク。この初音ミクを手前にあるリモコンを用いることで、リアルタイムに動かせるようになっているのだ。左側のコントローラでは、喜・怒・哀・楽のパラメータとなっており、これを動かしていくことで表情や動作が変化していく。
また、右側の8×8のパッドのコントローラには、「手を振る」とか「ジャンプする」など計64の動作が割り振られており、ボタンを押すと、まさにラジコン操作しているような感覚で初音ミクを操れるようになっているのだ。そうすると、これはまるで音、音楽とは何ら関係ないシステムのようにも見えるが、実はこれがMIDIと連携する形でできており、その中心にあるのがDAWであるDigital Performer。ここにある音楽データを基本にして、Unityを使って初音ミクの3DCGが動くようになっているのだ。心臓部であるDigital Performerが入ったPCのほかに3台のMAX/MSPが動作するPCも並んでおり、1台が口パクなどを含めた表情操作用、2台目がモーション操作用、そして3台目が照明コントロール用になっているとのことだ。
このリアルタイム3DCGコントロールシステムの実用例が、2012年末に記事にした「冨田勲×初音ミク コンサート実現の舞台裏~“史上最年長P”のオーケストラ曲に合わせてミクが歌い、踊る」だ。このときは、まだ動き出したばかりの実験的ともいえるシステムだったが、現在は幅広く活用できる完成された形になったというわけだ。
なおシステム的には、これと同じだが、スクリーンとしてR3フィルムではなく、ミストに投影するものも展示されていた。こちらは、映し出される3D映像に手を通すことなども可能で、なかなか不思議な世界を演出できるようになっていた。
ところで、そのクリプトン・フューチャー・メディアのブースで、こっそりと置かれていた初音ミク関連のシステムがもう一つあった。それは7月末の発売が予定されている「Hatsune Miku Glitch Vocal Tool」というソフトウェア。まだ、未発表の製品の参考出品というものであり、同社の初音ミク関連ソフトウェアという意味では、VOCALOID製品を除けば、おそらく初となる製品である。
これは、PCのキーボードを操作すると、初音ミクがリアルタイムに歌ったり、しゃべったりしてくれるシステム。といってもVOCALOIDが動くのではなく、あらかじめサンプリングしてある初音ミクの声を、さまざまに変化させながら出力するシステムとなっている。かなり多くのサンプルが収録されているようなので、DJ用の素材に利用したり、音楽作品の中に取り込んでいくなど、さまざまな利用の仕方ができそうだが、このシステムがMAX for Liveで構築されているため、動作条件としてはABLETON DAW Live Suiteが必須となる。価格は未定だが、4,000円以下にしたいとのこと。販売形式はパッケージではなく、クリプトン・フューチャー・メディアのサイト、SonicWireおよび海外サイトであるLoopmastersからのダウンロード販売となる予定だ。
以上、「コンテンツ東京2015」の「先端コンテンツ技術展」で展示されていた3つのブースについて紹介してみたがいかがだっただろうか? 映像系が中心の展示会ではあったが、音関連もかなり面白い展示がされていた。先端コンテンツ技術展は今年が初だったが、ぜひ来年も行ってみたいと思っている。