藤本健のDigital Audio Laboratory

第648回:VOCALOID for Unityなど、CEDECで見たゲームと音楽制作のコラボ。BASICで3DS用シンセ

（2015/8/31 12:48）

　8月26日～28日の3日間、横浜のみなとみらいにあるパシフィコ横浜で日本最大のゲーム開発者向けカンファレンス CEDEC 2015(コンピューターエンターテイメントデベロッパーズカンファレンス)が開催された。ここでは、さまざまな企業の展示ブースが並ぶと同時に膨大な数のセッション(セミナー)が行なわれたが、その中にはサウンド関連でも面白いものがいろいろと出ていた。その中で気になったものをいくつかピックアップしてみたので、紹介していこう。

8月26日～28日に開催された「CEDEC 2015」

　筆者はCEDECに行ったのは今回が初めて。ちょうどVOCALOIDがここで新しいサービスを発表するという情報を目にしたのと、知人がニンテンドー3DSを使った、変わったシンセサイザ・システムの写真をFacebookに上げていて、CEDECでプレゼンテーションをするというのを知り、ちょっと気になって行ってみたのだ。会場に入ると、中にいたのはオーディオや楽器系の人たちとはだいぶ違うし、IT系の人たちとも異なる雰囲気。大勢の人が集まる慣れない雰囲気の中で圧倒されながらも会場を歩いてみると、目的のブースも見つかったので、話を聞いてみた。

会場のパシフィコ横浜

VOCALOIDがUnityと連携し、できることとは?

　まず行ったのがゲーム開発環境であり、ゲームエンジンであるUnityのブース。ちょうど、このCEDECの開催に合わせ、ユニティ・テクノロジーズ・ジャパンとヤマハが共同で「VOCALOID for Unity」というものを発表したからだ。筆者がゲーム開発の世界に疎いだけに、プレス発表資料や「VOCALOID SDK for Unity」の概要図を見てもさっぱり分からなかったが、実際のデモを見て、なんとなく雰囲気が分かってきた。まずは、このビデオをご覧いただきたい。これはUnity for VOCALOIDを用いて作られた「ユニティちゃん」が歌って踊るデモだ。

Unityのブース

VOCALOID SDK for Unityの概要図

Unity for VOCALOIDで作られた「ユニティちゃん」が歌って踊るデモ

VOCALOID for Unity関連のアプリ開発

　ユニティちゃんは、Unityの公式キャラクタであり、ユーザーが比較的自由にキャラクタを利用できるように開放されたオープンソース系アイドル。声優が歌うデモソングなども複数あるユニークな存在なのだ。その声優を起用してヤマハが制作しているのが、今回登場したVOCALOID。ただし、単なるVOCALOIDのライブラリとして登場したというわけではなく、Unityの中で使えるようになり、しかもオープンソース系アイドルとしての「ユニティちゃんライセンス条項」に準拠しているため、ユーザーはこのライセンスに従えば無償で使える。

　では、仕組みはどうなっていて、これがどんなメリットを持つのだろうか? 従来、ゲームソフトなどでVOCALOIDの歌声を出すためには、VOCALOIDで生成したWAVファイルなどを組み込んで歌わせる必要があったため、リアルタイム性の実現は非常に難しかった。しかし、このVOCALOID for UnityはVOCALOID SDK for UnityをUnityに組み込むことによって、UnityからC#のインタフェースを介して直接VOCALOIDエンジンを叩くことができるようになっているので、リアルタイム性、インタラクティブ性を持つアプリケーションを開発することができるようになっているのだ。CEDEC会場内で行なわれたセミナーにおいてヤマハのVOCALOIDプロジェクトリーダーである石川克己氏は「フレーズを生成するゲームでも使えるし、リズムを叩くような音ゲーにおいても十分なスピードで反応してくれます。また、楽器系アプリにおいて歌わせることもできるし、インタラクティブに反応してアドリブも可能なバーチャルライブのようなこともできます。もちろん、歌詞や音符情報をその場で与えて歌わせるといったこともできるので、ゲーム開発でVOCALOIDの歌声を存分に活用できるようになります」と語っていた。

ヤマハのVOCALOIDプロジェクトリーダーを務める石川克己氏

音楽ゲームや楽器アプリなど、様々な用途への活用が期待される

　ここでは、どんなアプリケーションで利用するのかによって、2つの発音モードが用意されている。一つはリアルタイム性を重視して、音質を少し落とすRealtimeモードだ。歌声は「子音＋母音」で構成されるが、子音の発音は音符の発音位置より前からスタートするため、ボタンを押して、即反応させるのは非常に困難。そこで、子音の発音時間を短くしてしまうというモードだ。それに対し、約500msecの発音の遅れはあるが、子音をしっかり発音し、歌声の品質をよくするPlaybackモードもある。この2つのモードはどんなアプリケーションなのかによって切り替えらえるようになっているとのことだ。

制御/操作可能な機能

　現在、このVOCALOID for Unityの開発環境はWindowsおよびMac上であり、ここで開発したゲームはWindows、MacおよびiOS上で動作させることが可能だが、今後利用可能なゲーム機のプラットフォームを広げる可能性はあるようだ。また、各プラットフォームにおいて同じ歌声品質で歌えるようにするため、歌声合成エンジンはVOCALOID for iOS相当のものを用いるとのこと。また、Androidに対しても先行評価中とのことで、近いうちにしっかり対応してくれそうだ。

アプリ開発のワークフロー

　なお、VOCALOID SDK for Unity自体には音符や歌詞を入力するためのエディターは備えていないため、既存のVOCALOID Editorを用いて作成したVSQおよびVSQXファイルをインポートできるようになっている。ここでは歌唱パート、トラック情報、ノート情報、シンガー情報、テンポ情報を取り込める。また、その後、各パラメータを操作できるようになっているわけだが、先ほどのYouTubeのビデオでは、歌っている途中にパラメータをいじっており、それがリアルタイムに反映されているのが分かる。

歌声合成処理の概念図

　このVOCALOID for Unityは12月公開予定で、歌声ライブラリは、まずユニティちゃんのみの提供となるが、AHSなどが歌声ライブラリの提供を検討しているため、今後利用可能なライブラリは増えていきそうだ。

ニンテンドー3DSを使ったサウンド対決。BASICでシンセを開発中

　次に紹介するのは、ニンテンドー3DSを利用し「DETUNE VS SMILEBOOM サウンド対決2」と題して3日目に行なわれたセッション。これはサウンドクリエイターとして人気の高いDETUNEを率いる佐野電磁氏と、以前にこの連載企画でもWebMIDILinkというテーマでインタビューしたことのあったエンジニア、藍圭介氏が対決するというもの。どんなテーマで何の対決をするのかは分からなかったものの、面白そうだったので見てみたかったのだが、スケジュールの都合がつかなかったため、前日に取材をさせてもらったところ、ちょっととんでもないシステムができあがっていた。

DETUNEの佐野電磁氏

スマイルブームの藍圭介氏

ニンテンドー3DSを使ったデモ

　今回、佐野氏の対決相手である藍氏が所属しているのは、北海道のスマイルブームという会社。以前、藍氏を取材したときはクリプトン・フューチャー・メディアの所属であり、冨田勲氏の初音ミクのコンサートのときも、歌と踊りの同期システムを裏方で支える担当として記事で紹介したことがあったが、現在はスマイルブームに転職していたのだ。そしてスマイルブームでは、ニンテンドー3DS用に「プチコン3号」というBASIC言語のインタプリタをダウンロード販売(1,000円)している。スマイルブームの社長である小林貴樹氏によると「当社は、外注としてさまざまなゲームメーカーの裏方での開発を行なう一方で、自社ブランドで年に1つは何かを出そうと取り組んできました。そんな中で、2011年に『プチコン』というBASICを半分趣味で出したのです。その後、『プチコンmkII』そして昨年リリースの『プチコン3号』と進化させてきましたが、ウケがよかったために、いまかなり力を入れているところです。先日は大阪府立大学に教育用として大量に導入されるなど、面白い広がりもしてきています」と語る。初期バージョンは、任天堂のファミコン用のファミリーベーシックを開発したエンジニアに外注して作ったとのことだが、その後、ソースコードを引きあげ、現在は開発本部長である細田祥一氏がゼロから作り直している。

ニンテンドー3DS用の「プチコン3号」

スマイルブームの小林貴樹社長

開発本部長の細田祥一氏

　一方で、藍氏はスマイルブームで、さまざまな業務を手掛けているがプチコンに関しては、1ユーザーなのだ、という。

　「このBASICではMMLが扱え、8トラック、最大同時発音16というだけでなく、GM音源として鳴らせたり、波形定義のための命令があり、かなり自由度も高いので、これだけでかなりのことができるのです。そこで、このBASICを使って作ってみたのが、FMSYNCというFM音源のシンセサイザ兼シーケンサなんですよ」と藍氏。BASICでシンセサイザを作るって、そんなことが可能なのだろうか?

FM音源のシンセサイザ兼シーケンサ「FMSYNC」

　「これは1,000行ちょっとのプログラムですが、ホントにBASICだけで組んでいます。3オペレータのFM音源で、モジュレーションやエンベロープの制御まですべて処理しているんですよ。4オペレータではないのは、単に3DSの画面の大きさが狭いので、表示できなかっただけなんです。ただ、このBASIC、画像を張り付けるということができないから、表示している画像はすべてLINE文やCIRCLE文などで1つ1つ描いているんです。ここが手間ではありますが、実際に弾いて鳴らして、音色エディットができるところまで1週間程度で作れましたよ」と笑いながら藍氏は話す。処理スピードがすごく気になるところだが、触ってみると確かにまったく違和感のない、立派なシンセサイザ。

　「プチコン3号のBASICのスピードは、昔のX68000をマシン語で動かす程度のスピードなんで、結構なことができてしまうんです。新世代の3DSは処理速度が4倍になっているから、これで動かせばX68000の4倍速ということですね」と細田氏は軽く言う。

　実はこの取材時がちょうど、セッションの打ち合わせということで、来ていた佐野氏も、「こんなものを軽く作られたら、(コルグの)DSN-12の立場がないじゃないですか! 」と驚きを隠せない。そこに畳み込むように対決内容を打ち出してきたのが藍氏。

　「このBASICで作ったFMSYNCをDSN12と同期できたら面白いと、同期システムも組み込んでみたんですよ」(藍氏)。でも、3DSにはMIDI端子もUSB端子もない中、どうするのか? ここで提案してきたアイディアがすごい。DSN12の出力のうち、右チャンネルから通常通り音楽を出し、左チャンネルからは同期信号を出すというのだ。8分音符ごとに880Hzの音を出すと、それに合わせてFMSYNCのシーケンサが同期するというワザ。あまり知られていないものの、3DSのヘッドフォン端子はiPhoneと同じ4極になっていて、ステレオ出力のほかにマイク入力を装備している。そこで、これを分岐できるIK MultimediaのiRig2を取り付けることでDSN-12の出力をFMSYNCに入れることで実現しているのだ。

8分音符ごとに880Hzの音を出すと、それに合わせてFMSYNCのシーケンサが同期

IK MultimediaのiRig2を取り付け、DSN-12からFMSYNCに入力

　「いや、これホントに凄いけど、これでどうやって対決するんだ!? 」と佐野氏は首をひねっていたが、今のゲーム機の処理能力の高さを改めて実感した。なお、藍氏は、シンセサイザのFMSYNCとは別に「DRPETIT(DRプチ)」というドラムマシンもBASICで開発していた。こちらはPCMを使ったもので、8音色を16ステップで鳴らせるもの。この日は、同期機能は装備していなかったが、「間に合えば明日までに同期プログラムも装備したいですね」と話していた。

　なお、藍氏の開発したFMSYNCおよびDRPETITは、もう少し完成度を上げた上で、無料で公開する予定だという。

BASICで開発したドラムマシン「DRPETIT」

FMSYNCとDRPETITは、無料で公開予定

ヤマハのNuendo 7もゲームサウンドに活用へ

　ゲーム開発におけるサウンド系の重要なソフトウェアとなるのが、サウンド・ミドルウェア。リアルタイムに、インタラクティブに音を出すためのエンジンとなるものだが、そのサウンド・ミドルウェアの2大ツールといえるのがカナダに本社があるAudiokinetic社の「Wwise」(ワイズ)と、日本のCRI・ミドルウェアが開発する「CRI ADX2」。その2社にも動きが出ていた。

Audiokineticはヤマハ/Steinbergと組んだシステムでの開発を提案

　Audiokineticはヤマハ/Steinbergと組んだシステムでのゲーム開発の提案を行なっていた。7月3日に、ヤマハはDAWソフトであるNuendoの新バージョン、Nuendo 7を発表していたが、その目玉機能となるのが、Wwiseとのシームレスな連携を実現する「Game Audio Connect」という機能だ。ご存じの通り、音楽制作の世界はDAWなどを用いて時間軸に沿って制作していくものであるのに対し、ゲームはイベント単位で動作していくもので、それぞれ音を出すものではあるが、別世界のものだった。その音楽制作のツールであるNuendoとゲームサウンドのためのミドルウェアWwiseの間を橋渡しするツールがGame Audio Connectだ。

　従来、この間でデータをやりとりするためには、まずNuendo側でミックスダウンなどのオーディオ書き出し機能を用いてWAVやAIFFファイルを生成し、それをファイルとしてやりとりしたうえで、Wwiseからは、ファイル保管場所を指定した上で読み込んで……という作業が必要だったが、それを自動的に、受け渡しできるようにしたのだ。しかも、ゲーム開発においては、何千、何万というサウンドをやり取りするのが一般的であったため、非常に労力のかかる業務だった。それが、このGame Audio Connectによって、一気に効率化できるようになったのだ。

Nuendo 7

「Game Audio Connect」で、DAWのNuendoがゲーム用のWwiseと連携

ゲームオーディオ制作の流れ。Game Audio Connect無しでは様々な段階が必要

Game Audio Connectを使うことで、シームレスに連携

　こうした機能を踏まえて、ヤマハではゲーム開発の世界におけるNuendoのシェア拡大を狙っているわけだ。

　一方のWwiseを迎え撃つCRI・ミドルウェアではいろいろな切り口でCRIWAREの強化に取り組んでいた。1つ目はAndroidの音のレイテンシーに対する対策技術だ。これまでも、この連載記事においてAndroidはiOSやPCと比較してかなりレイテンシーがあることは指摘してきたが、単に音が遅れるだけでなく、機種によってレイテンシーの時間に大きなバラつきがあることが、開発者の頭を悩ませているという。とくにゲームにおいては画面の動きと音がピッタリと同期しているべきだが、レイテンシーに差があるため、すべての機種でタイミングを合わせるのは至難の業だ。そこで、CRIWAREではゲームソフトが起動後にレイテンシー時間を測定し、その後は実測レイテンシーを元にして、画面と音を合わせていくことで、その問題を解決するというわけだ。

Androidアプリ開発の音ズレを防ぐための音声再生遅延推測機能

　2つ目は曲データをオーディオとして入力すると、そのリズムを自動で検出する技術だ。まあ、ビート検出自体はそう珍しいものではないが、ビートだけでなく、曲の盛り上がり具合も数値化するのがユニークな点。このビートと盛り上がり具合をデータ化し、別ファイルで生成するため、簡単に音ゲーの生成ができるという。さらにCRIWARE自体が9月にアップデートすることで、音の“見える化”を実現するとともに、開発中のゲームを動作させながらサウンド調整可能にするという。これによってサウンド調整やデバッグが劇的に効率化すると訴えていた。

曲データをオーディオとして入力すると、そのリズムを自動で検出する技術

9月のアップデートにより、開発中のゲームを動作させながらサウンド調整が可能になる

　以上、初めて参加したCEDECで見つけたサウンド関連の情報をピックアップしてみたがいかがだっただろか? サウンド関連セッションだけで15もあったので、もし3日間じっくり見ることができれば、もっと多くの情報に出会えたようなので、ぜひ、また今後も参加してみたいと思っている。

藤本健

　リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。　著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto。