藤本健のDigital Audio Laboratory

AI、VR、ゲーム、GPU活用、DTMの未来はどうなる?「CEDEC」でディスカッション

 8月30日~9月1日の3日間、横浜みなとみらいにあるパシフィコ横浜の会議センターにおいて、日本最大のゲーム開発者向けカンファレンス「CEDEC 2017」(コンピューターエンターテイメントデベロッパーズカンファレンス)が開催された。数多くの企業が展示ブースを構える一方で、多くのセミナールームを使いながら、同時並行的にセミナーセッションが行なわれ、3日間で計200を超えるセッション数となっていた。

ゲーム開発者向けカンファレンス「CEDEC 2017」において、「DTMの現在と未来」というテーマでパネルディスカッションを行なった

 カテゴリー的には、エンジニアリング、プロダクション、ビジュアルアーツ、ビジネスプロデュース、サウンド、ゲームデザイン、アカデミック・基礎技術……となっていたが、そのサウンドのセッションの招待講演という形で、筆者が登壇することになったのだ。

パシフィコ横浜の会議センター
展示ブースの様子

 登壇といっても、一人でしゃべるのは苦手なので、パネルディスカッションの形にさせていただいた。CEDECの運営委員会のメンバーである、CRI・ミドルウェアの増野宏之氏とバンダイナムコスタジオの中西哲一氏にお願いして、3人でのセッションとなり、そのテーマは「DTMの現在と未来」。約240席ある会場はほぼいっぱいになるとともに、有料のタイムシフト視聴という形でセッションの内容がネット放送され、多数視聴されたようだった。今回は9つのテーマに区切って議論していったのだが、個人的にも面白く、興味深いパネルディスカッションができたので、そのいくつかのテーマでの内容を抜粋する形で紹介していこう。

左から中西哲一氏、増野宏之氏、藤本
セッションスタート前には、入り口に長い列ができた
会場はほぼ満席

DAWのシェアから見る動向

増野氏(以下敬称略):サウンド系の招待セッションという形でDTMステーションの藤本健さんをお招きして、パネルディスカッションを行なっていきます。まずは自己紹介をお願いします。

増野宏之氏

藤本:DTMステーションというWebサイトなどを運営している藤本健と申します。ゲーム業界に土地勘があるわけではないのですが、今日はゲームに特化しなくてもいいと伺ったので参加させていただきました。どうぞよろしくお願いします。

 まずは「DAWのシェアから見る動向」とのことですが、昨年のDTMステーションで「あなたが普段使っているDAWはどれですか?」というアンケート調査を行った結果1581の投票がありました。このグラフを見るとわかる通り(11)、24%とトップシェアだったのがSteinbergのCubase、それに次いで2位となったのがPreSonusのStudio Oneです。この1年で急速にシェアを伸ばした印象があります。そして3位は、最近ややシェアを落としてきていますが、CakewalkのSONARと続いています。

DTMステーションで調査したDAWのシェア。なお、現在DTMステーションで2017年版DAWシェア調査を実施中

 ただ、これが世界的シェアと合致するかというと、そうでもないようです。手元に資料を持ってきているわけではありませんが、海外の雑誌調査などを見るとFL StudioやReaper、またAbleton Liveなどが強く、日本のシェアとはだいぶ雰囲気が違うように見受けられます。

中西氏(以下敬称略):ゲーム開発者やサウンドデザイナーだと結構違うものがありそうです。もっとも会社によっていろいろ違うし、会社によっては統一していたり、バラバラだったりもするのですが……。実際バンダイナムコスタジオでは各自自由となっていますが、最近社内で急上昇しているのはReaperで、「これってサウンドデザイナーのために作られたDAWなんじゃない?」というほど多彩な機能を持っています。もっとも私はメインではNuendoを使っていて、Reaperも少し触るといった感じでしょうか。

中西哲一氏

藤本:もう一つDTMステーションで毎年アンケート調査を行って面白いのがWindows対Macのシェア比率です。今年の春に行った結果が、このグラフです。ここではWindows 10、Windows 8.1以前、Mac OSX 10.11以降、Mac OSX 10.10以前と4つに区切っていますが、結果的に見ると約6:4といったバランスでWindowsのほうが多くなっています。DTMというとMacが強いという印象をお持ちの方も多いかもしれませんが、現状はこんな形です。ただ、時系列で見るとMacのシェアがジワジワと上がってきていますね。やはりMacの価格が安くなってきたということも背景にあるのかもしれません。

Windows対Macのシェア比率

増野:では、会場のみなさんに聞いてみましょうか? 挙手をお願いします。Windowsを使っているという方……、Macを使っているという方……。だいたい2:1でWindowsという感じですかね。ちょうどこのグラフに近い感じかもしれません。

藤本:ただ一方で、WindowsやMacだけでなく、iPhoneやiPadでDTMをする人は増えてきています。スマホ、タブレットの性能が上がってきているので、これらでかなりのことができますし、DAWなどのアプリも充実してきました。また本日8月31日は初音ミク誕生10周年ということで、初めてiPhone/iPad用の初音ミクがリリースされています。

iPhone/iPad用の初音ミク

 具体的にはヤマハのMobile VOCALOID Editorのライブラリーとしての登場なのですが、このようにiOSでのDTM環境は確実に充実してきていますね。ただ、PCを使わずにiOSだけでDTMをしている人がどれだけいるのか……というと、まだごく少数派のようではあります。あくまでも思いついたメロディーのメモ用に使うとか、ちょっとしたレコーディングを行なって、その結果をPCのDAWに転送して使うとか、併用している人が多いようですね。ただ、今の学生など、スマホメインの世代でどうなってくるのかは個人的にも気になるところではあります。

サラウンドの現状

増野:では続いてサラウンドの現状について見ていきましょう。日本の家庭事情だとなかなか爆音を鳴らすことができないので、5.1chですらなかなか普及していないのが実情でしょう。サウンドバーを使って前方向からのバーチャルサラウンドなどもありますが、ゲームの世界では「やっぱりヘッドフォンでしょ」なんて声も大きかったりします。規格的にもいろいろなものがあって、少し混乱しているように見受けられますが……。

藤本:そうですね、まさに発展途上のサラウンドなので、7.1chやDolby ATOMSなど、いろいろありますが、先日AV Watchでの取材をして面白かったのがNHKの放送技術研究所の22.2chです。現在、8Kスーパーハイビジョンの試験放送に合わせて音声も22.2chサラウンドが使われているようで、来年からは本放送も予定されています。サラウンドって、ゲームだと効果音的に非常に有効なようにも思いますが、NHKの試験放送のコンテンツで非常に評判がよかったのがルーブル美術館だった、というんですよ。イメージつきますか?

NHKの放送技術研究所の22.2ch

中西:非常に静かそうな感じで、すぐにピンときませんが……。

藤本:そうなんですよ、すごく静かなんだけど、たとえばモナリザの前に立っていると、後ろのほうを人がコツコツコツ……って歩いていく、少し離れたところで人がコソコソ話をしている、反対側では咳をしている人がいて、そして目の前には8Kでの美術作品が映し出されていて……、まさにルーブル美術館に来ているような体験を得られるそうなんですよ。

中西:かなり贅沢なリバーブが味わえそうですね!

藤本:もちろん22.2chもあるスピーカーを家庭にセットできるのか、という問題はありますが、テレビの下に設置するサウンドバーでも22.2chを体験できるとのことだったので、こうしたものがやってくると楽しい未来がやってくるのかもしれません。ほかのコンテンツでいうと、たとえばリオのカーニバルとか、日本の各地のお祭り、花火なども22.2chと8Kで疑似体験をするというのも面白そうです。

中西:22.2chはともかくですが、ゲーム業界でもやはりサラウンドへの対応は進みつつあって、実際PC版ゲームだとDolby Atmos対応のゲームが出てきたり、Xbox OneもDolby Atmosに対応するなど、だんだん開発側においての環境は整ってきました。もっとも、ユーザー側のサラウンド環境がなかなか追いつかないという問題はあるので、これからではあるのですが……。

藤本:サラウンドの延長線の話になるかもしれませんが、VRサウンドも最近大きな話題になっていて、今回のCEDECでもVRネタは非常に多いですよね。先日もAV Watchで360度収録が可能なゼンハイザーのAMBEO VR MICを取材しましたが、その辺はもうゲーム業界では取り入れているのですか?

中西:そうですね、まだ一部ですが、取り入れ始めてはいます。今日、ここまでのサウンド系のセッションでもVRの話はいろいろありました。ウチの会社でいうと、VR ZONEでのVRマリオカートにおいても導入しているのですが、でもまだ一部なんですよね。制作手法としては、2通りあって、そういったVRマイクを使うというのもありますし、あとは内部的にサラウンドミックスして作っちゃうという方法です。この前、ヤマハのViRealという64chマイクが出ていますが、あんなのが使えるようになると面白そうですよね。

機械学習・AIの活用

増野:では次のテーマとして「機械学習・AIの活用」というところに行ってみましょうか。ここで挙げてもらった、LANDR(ランダー)というもの。キャッチコピーを見ると「オーディオマスタリング ~ クリック2回でプロの音質」などと書かれていますが、これは何なんでしょう?

LANDR

藤本:LANDRはカナダにある会社が行っているWeb上のサービスで、MP3やWAVファイルをアップロードすると、それにマッチしたマスタリング作業を施した形でダウンロードできるというサービスです。何kbpsのMP3を扱うのか、16bitのWAVなのか、24bitのWAVなのかなどによって値段が変わってきますが、1曲ごとの課金や月額固定の課金メニューなどもあり、安い使い方であれば1曲300円程度からマスタリングができてしまいます。

 ここでは主にコンプレッサとEQによって仕上げられているようです。以前聞いた話によると、アップロードした曲を自動解析した上で、テンポや曲調などを把握した上で、過去の膨大なデータベースに照らし合わせして、それに合った情報を探し出した上で、マスタリング処理を行なうのだとか……。そのため曲調によって、マスタリング内容もかなり変わてくるのが面白いところですね。実際に使ってみましたが、そこそこの結果が得られますね。

増野:金額的なところを見てみると月額で900円とか、プロ用のものでも2,500円弱と、かなり手ごろです。マスタリングエンジニアに頼むのと比較すると、各段に安いですよね。これでマスタリングエンジニアが不要になってしまうなんてことはないとは思いますが……。

藤本:もちろん、これでどんな曲でも完璧というわけではないですし、マスタリングエンジニアの方それぞれの個性というものもあるので、何でもこれでOKとはいかないと思います。でもいくつかの曲で試してみると、そこそこいい結果が得られますね。よく「10年後になくなる職種」なんてのが話題になりますが、マスタリングエンジニアも、それなりに個性、特質を打ち出しいかないとマズイ時代がやってくるかもしれませんね。

もうひとつ、紹介したいのが、アメリカiZotopeのNeutronです。こちらは、マスタリングではなく、DAWの各トラックを最適化していくもので、トラックにプラグインとして挿して再生するだけで、EQ、コンプ、トランジェントシェイパー、エキサイターを調整して、最適化してくれるんです。実際、以前レコーディングエンジニアの方々にチェックしてもらったところ、「私なら、もうちょっとここにハイを足すかな……」なんて批評はしていましたが、概ね正しい処理を行なっているようで、80点程度はとれる設定をしている、とのこと。EQやコンプの設定を初心者が行なうのなんて、非常に難しいですから、これは革命的だと思いますよ。まあ、LANDRにせよNeutronにせよ、これがホントにAIであるのかというと、その辺はよくわからないですけれどね。

iZotopeのNeutron

増野:しかも、このNeutronは2万円なんですよね。

藤本:そうたった2万円なんですが、AI的にやってくれるのは、Neutronの機能の一部であり、Track Assistantというもの。実は、このTrack Assistantを切り出したNetron Elementsなら1万円ですからね。でも、今後こうした機能を内包したDAWなんかも出てくるのではないでしょうか? 各DAWによってその性能に違いも出てきそうですから、その辺は楽しみなところではあります。

DSPの活用

藤本:さて、次のテーマとしてDSPの活用について考えてみたいと思います。DSPってこれまでの音楽制作においても幅広く使われてきました。Pro Toolsの世界もそうですし、最近ではUniversal AudioのUAD2も多くの方が活用しています。

 UAD2内蔵のapollo twinなどはかなり手ごろな価格になっている一方で、やはりPCのCPUパワー向上によって、ネイティブ化というのも大きな流れになっていますよね。ここで、ひとつ増野さんにお伺いしたいのが、GPUをDSP的に使うことはできないのか、ということです。最近はGPGPUとして、グラフィック以外に使われるケースもあると聞きますが、それをオーディオ処理に使ったりしないのですか?

増野:そうですね、ゲームの世界でGPGPUを使うというのはトレンドとなっていて、何人かの方が講演されたりもしています。

中西:そうですね、実験的にという形ではありますが、一部では使ってるみたいですよ。

藤本:やっぱりまだ実用的というよりも実験的なんですね。

増野:まだ本格採用という話は聞いてないですね。どうしてもレイテンシーの問題があるんですよ。結局、計算させて答えが返ってくるまでに時間が掛かっちゃう。畳み込み演算とかには非常に強いのですが、結局、これ描画処理をするためのプロセッサなので、16msecといったものがあるんですよ。

藤本:グラフィックの世界では16msecは問題にならないんですか? 音の世界だと10msec超えると明らかに認知できてしまうし、いまのDSPでのエフェクト処理だと数msecくらいまで詰めてきているので16msecと言われちゃうとちょっと致命的なのかもしれませんね。

増野:実際、音ゲーでも10msec以下ですからちょっとキツイですね。でも、今後このレイテンシーが縮まっていく可能性は高いと思っています。家庭用ゲームとPCとのアーキテクチャの違いがあります。家庭用ゲームの場合、テクスチャとかV-RAMに相当する部分があってメインメモリと共有なんですよね。いわゆるUMA=Unified Memory Architectureという形になっているのに対し、PCだとNVIDIAのGeForceやAMDのRadeonとかに転送するのに時間がかかっちゃう。同じメモリ空間でやるなら、家庭用ゲームのほうが先にくるかもしれないという予感はしますね。

 そしてもうひとつ気になるのは浮動小数点処理に関する計算方式についてです。最近はDAWでの処理でも単精度ではなく倍精度でやったほうが音がよくなる……なんて話がありますが、この倍精度計算をGPGPUにやらせると途端に遅くなるんですよ。単精度であればいいんですけどね。その辺、世の中の動向とどうマッチするかもひとつの課題かもしれませんね。

藤本:まあ、単精度でいいと思いますが、やはりまだリアルタイム処理だと難しいということなんですね。でも、バウンスで使うといった場合であれば十分可能性はありそうですね。ぜひよかったら、CRIさんで、GPGPUを使うVSTプラグインとかを作っていただけると面白そうですね!

 その後、自動作曲など、超未来のDTMについてのやりとりが行なわれて、最後には少し会場の方との質疑応答なども行なった。個人的には比較的安価に入手できるグラフィックカードのGPUが、DSPとして使える可能性などについて議論できたのは非常に有意義だった。なかなかこうしたパネルディスカッションに呼んでいただくといった機会はないが、またこんな未来の話について議論できたら面白いなと感じた1時間だった。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto