藤本健のDigital Audio Laboratory

第997回

「ポケモン」環境音の作り方から疑似もぐもぐまで。ゲームサウンドの新世界

8月23日~25日の3日間、横浜市のみなとみらいにある展示ホール「パシフィコ横浜ノース」において、CESA(一般社団法人コンピュータエンターテインメント協会)が主催する国内最大のゲーム開発者向け技術交流イベントである「CEDEC(Computer Entertainment Developers Conference) 2023」が開催された。

神奈川県横浜市のみなとみらい

CEDECは、しばらくオンラインでの開催となっていたが、今回はオンラインをベースにしつつも、2019年以来、4年ぶりのリアル参加も可能となった。リアル参加に対しては人数制限をかけていたため、誰もが来場できたわけではなかったようだが、筆者も久しぶりに参加したところ、かなり興味深い展示やセッションも多く、非常に興味深いイベントとなっていた。

今回はそのイベントの中から、サウンド関係で気になった展示をいくつかピックアップしてみたい。

展示エリアで見つけたユニークな技術とは?

CEDECは例年「パシフィコ横浜」で行なわれていたのだが、今回は2020年にオープンした新ホール・パシフィコ横浜ノースでの開催となった。

1階の交流ラウンジに展示エリアがあり、各企業や大学、研究機関などが展示を行なう一方、2階~4階にあるセミナー会場では、数多くのセッションが開かれていた。セミナー会場は第1会場~第13会場まであり、各会場で1日に5回程度のセッションが行なわれており、総セッション数となると膨大。

その中で、サウンド関連のセッションだけをピックアップしてみても、以下のリストの通り25もあった。

  • 新横で乗り換えよう! -高精度フレーズ解析とマイクロサンプル制御(uSC)を活用した新横方向楽曲遷移の提案- 増野宏之
  • 明和電機・完全攻略セミナー 土佐信道
  • 「グラブルミュージアム蒼の追想」MX4Dシアターのサウンド制作事例 〜ゲームの世界観とアトラクション体験の両立に必要なこと〜 宮本鈴奈 | 村上健太 | 馬明泓
  • イマーシブオーディオ対応のスタジオを一発建ててみた -作ってみたからこそわかるイマーシブオーディオの知見とノウハウ- 本間清司
  • 聴いて分かる! インタラクティブミュージック作曲の舞台裏!! 北谷光浩
  • Wwiseの最新機能を上手に使うには-Auto-Defined Soundbanks攻略法 合田浩
  • How to use audio to better tell Stories & create better experiences – the careers of Scott Martin Gershin & Masanobu “Tomi “ Tomita / より良いストーリー伝達と体験を創造するためのオーディオの活用法 Scott Martin Gershin | Masanobu "Tomi" Tomita
  • FINAL FANTASY XVI:サウンド開発日誌 ~迫力の演出の裏の、地味な実装の工夫たち~ 絹谷剛 | 木部寛之 | 久保田真梨 | 松尾友弥
  • ポケモンの せかいを かけめぐる おと! おんきょうデザインで ひろがる ぼうけんの すがた! 一之瀬剛 | 北村一樹 | 岩本翔
  • AI音声合成の技術動向と権利 高道慎之介
  • 大量恐竜vs多人数チーム対戦が織りなす近未来オンラインマルチアクション 『EXOPRIMAL』における動的大量制御のインタラクティブサウンド表現と人工音声技術の活用 神田幸範 | 三上崇 | 夏苅繁俊
  • 音場を広げる! ~Amazing Bombermanのインタラクティブに変化する2Dサウンド制作事例~ 金子貴紀 | 落合興一郎 | 岩村宏
  • 振動のフォーリー録音!? サウンド技術で振動攻略 ~音と振動はだいたい同じ~ 山本雄飛
  • Don’t forget to feel the beat! 全てが音楽とシンクロする世界「Hi-Fi RUSH」のゲーム/サウンド制作 中村祐二 | 小堀修一 | 山口誠 | 裏谷玲央
  • 絵本から音が飛び出しまっせ!『ベヨネッタ オリジンズ: セレッサと迷子の悪魔』の”立体音響表現” 小西悠介 | 進藤美咲 | 丹羽広樹 | 北村一樹 | 武井純孝
  • 「サウンドクリエイター新人研修の改革」インストラクショナルデザインの活用 倉持啓伍 | 王智 | 燕青
  • 最新ADXの立体音響事情と活用方法 櫻井敦史 | Cho Hyunsoo
  • 「振動フォーリー」「振動プレビューVST」体験ブース 山本雄飛 | 徳武魁人
  • Interactive Music for Real Life: 実世界での行動や感情に応じたインタラクティブミュージックフィードバック 家室証 | 長谷川隆成
  • 『ストリートファイター6』対戦を熱く盛り上げる自動実況機能の取り組み 薮下剛史 | 岩本卓也 | アンドリュー・アルフォンソ
  • CRI ADXプロファイラー活用によるサウンドQAの自動化・可視化に関する取り組みの紹介 竹原涼 | 瀬津丸勝 | 宮下滉洋
  • 生成系AIを活用した効果音制作手法の研究 平#重行 | 滝沢力
  • みんながハッピーになる音楽著作権運用の最前線 陣内優希 | 坂本英城
  • 「俺の声を聞け!」ゲームのための音声入力技術 押見正雄 | 有働篤人 | 大町祥輝
  • Transformerを用いた効果音合成技術 - 爆発音を対象に - 平#重行 | 滝沢力

まずは展示のほうからざっと紹介していこう。

“咀嚼”と“香り”が疑似体験できるPhantom Snak

今回一番すごいと思ったのは電通および電通デジタルが展示していた「Phantom Snak=新しい咀嚼体験システム」なる展示だ。

筆者も体験させてもらったのだが、白い不思議なマシンの前に立ち、骨伝導式のヘッドフォンを装着。そしてクッキーやポテトチップ、グミなどを選択した上で、赤いスタートボタンを押し、口をもぐもぐムシャムシャと噛むようなそぶりをするのだ。

例えば、ポテトチップを選んで、ムシャムシャすると、ポテトチップの香りが漂ってくるとともに、口の動きに合わせてこめかみ部分でサクッ、サクッと音がして、まるでポテトチップを食べているような感覚になるのだ。クッキーを選ぶとクッキーの甘い匂いが漂い、ザクッ、ザクッとクッキーを噛んでいるような音が出て、まるで食べているような感じがするのだ。

クッキーを選ぶとクッキーの甘い匂いが漂う

画面右側には、ホンモノを食べたとしたときのカロリーが、左側には噛む動作をした結果消費するカロリーが表示される。骨伝導だと振動を強く感じるだけに、まさに食べている感覚になるのが面白いところ。

それよりなにより驚いたのは、香料のリアルさ。クッキーもリアルだったが、ポテトチップの匂いも実現できてしまうのは驚き。担当者に聞いたところ、光の三原色であるRGBのようにいくつかの匂いをリアルタイムに混ぜ合わせているわけではなく、あらかじめクッキーやポテトチップ専用に調合してもらった、とのことだが、臭覚・視覚と音&振動でかなりリアルに感じられることには驚いた。

“コントローラーの振動”で効果音を再現する技術

スクウェア・エニックスのサウンド部が展示していたのは、効果音をリアルな振動で感じられるようにするデモだ。

会場に置かれていたのはPS5のコントローラーなのだが、これを持った状態で、電動ドリルやはさみ、ノコギリといった音を再生すると、その動作を手で感じることができる。電動ドリルのガーッ!! という振動はもちろん、ハサミで布を切ったときのようなジョキジョキという振動や、ノコギリで木を切るギコギコという振動が手で感じられるのはなかなか不思議な感じだ。

担当者によると、これはマイクではなく、加速度センサーを使って録音しているのだという。加速度センサーの場合、XYZの3軸があるため、LANで情報を送った後に、レシーバーでそれぞれの信号を取り出し、それを3ch分のオーディオインターフェイスにそのまま入れている、という。

加速度センサー
レシーバー

実際には3軸すべてを使うのではなく、そのうち1つだけでよく、音として録音したものをそのまま再生して、スピーカーの代わりにPS5のコントローラーの振動素子に送ることで実現させている。サブウーファーとはまた違う、ユニークな音の録音・再生方法のようだ。

音声録音と表情キャプチャを同時に行なう収録スタジオ

ソノロジックデザインが展示していたのは、音声収録とフェイシャルキャプチャーをタイムコード同期して同時収録できる自社音声収録スタジオだ。

ゲーム制作において声優のセリフを録音するケースは多いが、その際に、顔の動きもモーションキャプチャするケースも増えてきているという。ただ、顔の動きのモーションキャプチャは声優が行なうのではなく、別途フェイシャルアクターと呼ばれる人がいて、声優の声に合わせ、やや派手に顔の表情を動かしてキャプチャーするのだという。その際、フェイシャルアクターは顔にいくつものマーカーを付け、モーションキャプチャースタジオで収録するため、時間もコストもかなりかかってしまう。

そこで同社のスタジオでは声の収録と同時に、声優の表情をそのままキャプチャしてしまう、という手法を実現させた。

フェイシャルアクターではないので、派手な顔の動きではないが、しっかりその動作は記録できるので、ゲームに十分活用できる。もちろん、声優の顔にマーカーを付けることもなければ、モーションキャプチャスタジオも必要ないのが大きな特徴だ。

声のレコーディングと同時に、Epic Gamesが開発した無料アプリ「Live Link Face」を利用することで顔の動きを捉え、それをデータとして記録していくことで同様のデータが得られる。

この際、声のデータにも顔の動きのデータにもタイムコードを付けることで、簡単に同期させられるのも大きなポイントだとか。リアルタイムに顔の動きに合わせてキャラクタの顔を動かすといったこともできる。これによってゲームの開発におけるコストを下げるとともに、時間短縮も可能になる、という。

口にした爆発音をリアル変換する合成技術

京都産業大学が展示をしていたのが「Transformerを用いた効果音合成技術 -爆発音を対象に-」というもの。

タイトルからはまったくイメージがわかなかったので、話を聞いてみたところ、「ボカーン!」といった爆発音を口で言うと、それをリアルな爆発音に変換してくれる、というユニークな研究だった。実際の結果は以下の通り。口で言った爆発音(3_rec.wav)と、それを元に変換した音(3_outputsound.wav)を聞き比べてみて欲しい。

【録音サンプル】
口で言った爆発音
3_rec.wav(0.28MB) 295,980Byte
変換した結果の音
3_outputsound.wav(0.28MB) 295,980Byte

口での音が、いわゆる「ドカーン」ではなく、「ドシューーン」といったかなりリアルなイメージで入力しているのが興味深いところだが、これはどうなっているのだろうか?

実は、フリーで公開されているものなど、膨大な爆発音を集めるとともに、その爆発音を聴いた上で人が口で真似した音をセットにして、3,775組のコーパスを作成した上でディープラーニングさせているという。

ユニークなのは、ディープラーニング素材として波形をそのまま入力するのではなく、メルスペクトログラム(周波数の時間変化を可視化した画像)を二次元画像データとして学習させているという点だろう。このように学習した結果、今度は人が声で爆発音を入力すると、データが生成され、最後にニューラルボコーダを介すことで、先ほどのような爆発音を合成しているのだ。

ゲーム開発においては、さまざまな爆発音を利用するが、求める爆発音を生成するというのはなかなか困難なもの。そうした際、口で真似した音を元に合成できるのだとしたら、かなり効率もよくなりそう。とってもニッチなテーマの研究だとは思うが、さまざまな効果音に応用もできそうで、将来が楽しみだ。

ヤマハのイヤフォン/ヘッドフォン向け仮想立体音響技術

ヤマハが展示していたのは、「Sound xR」というイヤフォン/ヘッドフォン向けの仮想立体音響技術だ。

一般的なイヤフォン/ヘッドフォンで360度あらゆる方向からの音を立体的に表現するもの。個人個人に最適化させるというのではなく、誰が聴いても立体的に聴こえるようにするというこの技術は、ゲームエンジンのUnityやサウンドミドルウェアのWwiseのプラグインとして動作するようになっているため、普通にUnity用、Wwise用に作ったプログラムを、そのままイヤフォン/ヘッドフォンで立体的に聴こえるようにできる点が大きなポイント。

さらにこのUnity、Wwiseに加え、先日はCRI・ミドルウェアの統合型サウンドミドルウェア、「CRI ADX」に標準搭載することをめざしてライブラリの提供を開始している、と話す。

実際、CRI・ミドルウェアのブースでも、Sound xRのデモが行なわれており、ヘッドホンをした上で、VR画面を操作していくと、音が立体的に聴こえることが実感できた。このデモでは通常のステレオと、Sound xRを使った場合の音の違いを比較できるようになっていたが、まったく次元が異なる音へと変わることを体験できたのも面白いところ。

ソニーの360 Reality Audioとはアプローチが違いそうだが、ゲームの世界でSound xRを用いたバイノーラルの立体音響が普及していくと、世の中が大きく変わっていくのでは…と感じられた。

気になったセッションをピックアップ

ゲーム音楽をシームレスに繋げる技術

続いてセッションのほうもいくつか紹介してみよう。最初に紹介するのは、今回のCEDECのセッションにおけるトップバッターとなったCRI・ミドルウェアの増野宏之氏による「新横で乗り換えよう! -高精度フレーズ解析とマイクロサンプル制御(uSC)を活用した新横方向楽曲遷移の提案-」。

増野氏が開発した音楽解析ツールの「BEATWIZ」については以前記事でも紹介したことがあったが、今回の発表はBEATWIZがどこに向かって進化しているのかの、目標の一つを示した内容にもなっていた。

CRI・ミドルウェアの増野宏之氏

ゲームの世界ではシーンの変化にともなって音楽がシームレスに切り替わっていくが、これはゲームミュージックの作曲家がどこで切り替えても曲として破綻せずにうまくつながるように作曲しているからだ。でも、そんなことをしなくても、まったく違う曲を違和感なく、シームレスに繋ぐためにはどうしたらいいのか、ということに長年取り組んでいるのが増野氏の研究テーマの一つとなっており、それが今回の発表内容でもあった。

その楽曲を繋ぐための要素技術を増野氏はいくつか開発しているが、その一つが高精度なフレーズ解析システムであり、BEATWIZで使われてきたもの。

ここでは和音の類似度を定量的にとらえたり、曲の構成を分析しサビ部分がどこなのかを検出していくことをチャレンジしてきている。

まずは楽曲の速さ=BPM、拍位置・拍頭と拍子数の解析をしたうえで、楽曲の構成がどうなっているかを分析していくのだが、これまでさまざまなトライ&エラーがあったことを実演を交えながら紹介。たとえば普通にサビを検出すると、実際のサビの数小節前をサビの頭として認識してしまうのだが、その要因がどこにあり、どうすればジャストな位置に補正できるのか? といった研究が行なわれてきたようだ。

一方で曲と曲を繋ぐと、どうしてもプチノイズが発生してしまうという問題があったが、マイクロサンプル制御で解決していった流れなども紹介。こうしたことにより、かなり実用可能なレベルに近づいてきている模様。

もちろん、ピッチの違いやBPMの違いは克服する必要があるのでピッチシフトやタイムストレッチも併用しながら行なうという意味では、さながらDJにも近いことを、自動で実現するにはどうするか? を研究しているようだ。まだ研究は続いていくようなので、今後どう発展していくのかは見守っていきたい。

明和電機のヒストリーが学べる!? 攻略セミナー

2番目に紹介するのは「明和電機・完全攻略セミナー」で、明和電機の社長、土佐信道さんによるセッションだ。

明和電機・土佐信道氏

土佐社長とは、先日YouTube番組である「江夏と藤本のオトトーク」でご一緒させていただいたが、今回のセッションでもパフォーマンス的なことをされるのかな…と思っていたらかなり違う内容で個人的にも感激した内容だった。

明和電機、土佐社長が登場 ! CT-S1000Vがいろいろ大変なことになっておりますwww[江夏と藤本のオトトーク Powered by CASIO] #09
明和電機土佐社長が繰り広げるまさかの寿司セッション![江夏と藤本のオトトーク Powered by CASIO] #10
土佐社長に笑神様降臨!ww 神回確定のCT-S1000Vめちゃくちゃセッション![江夏と藤本のオトトーク Powered by CASIO] #11
土佐社長編最終回!明和電機流CT-S1000Vの使い方![江夏と藤本のオトトーク Powered by CASIO] #12

冒頭では、オタマトーンを使った演奏などもされていたのだが、ここでの内容は、明和電機がどのような変遷をたどって、ここまできたのか、どうして機材を開発するようになり、どうして音楽家としてもレコードデビューして活躍したのか、そしてなぜオタマトーンが生み出されたのか……といったストーリーが子供のころからの生い立ちも含めて真面目に披露されたのだ。

筑波大学大学の芸術研究科でメディアアート的にさまざまな作品を作りながら大学院まで進んだという土佐社長。そうした中から音を出す作品などを作り、それをどうパフォーマンスすると注目を集めるのか、という中から青い作業服を着用して演奏する明和電機というアイディアが出てきたのだとか。ちなみに明和電機はもともと、土佐さんの親がやっていて倒産してしまった会社の名前を持ってきているとのことで、実際の法人というわけではないようだ。

2004年以降は風船のようなものを肺の代わりにして歌声を発生させるSEAMOONS(セーモンズ)を皮切りに、さまざまな楽器的アート作品を作ってライブ活動などを行なっていた明和電機だが、アートだけだとお金がかかるばかりで、なかなか収入につながらない。

そうした中、世界中で受け入れられるマスプロダクトを作ろうということで、開発したのが、あのオタマトーン。これを作るまでには、膨大なアイディアスケッチなどをしつつ、どうすればウケるのかを研究し尽くした上で製品化していった過程も、当時のスケッチなども交えつつ披露された。その結果、これまでに世界中で180万台も売れたというのだから、まさに大ヒット作品。明和電機から、今後さらにどんな作品が生まれてくるのかも楽しみなところだ。

オタマトーンのアイディアスケッチ

“ポケモン”の世界を音でリアルに再現する方法

最後に紹介するのは、2日目の中盤のセッションであった「ポケモンの せかいを かけめぐる おと! おんきょうデザインで ひろがる ぼうけんの すがた!」というもので、一之瀬剛氏、北村一樹氏、岩本翔氏による発表。ここでのテーマは「生物がポケモンしか存在しない世界で、自然環境音をリアルに表現する」ということ。どういうことなのか?

左から岩本翔氏、一之瀬剛氏、北村一樹氏

通常、自然の音というと、昼間には鳥の鳴き声、夜間は虫の鳴き声などと共に、風によって草が揺れる音や川の流れる音、海の波打ち際の音などで構成されている。普通なら、フィールドでレコーディングした音を環境音として流すことで雰囲気を出すことができるが、ポケモンの世界でそれはNG。そこで、ポケモンの鳴き声をいろいろ鳴らして、自然環境音にするのはどうするか? という研究がなされてきた、という話だったのだ。

そのために鳥ポケモン系、虫ポケモン系などに分類した上で、音を整理して、必要に応じて鳴き声のバリエーションを追加。さらに、鳴き声のインターバルをずらしたり、感情種別によって揺らぎを持たせるなど、様々な要素を組み合わせていくことで、違和感のない環境音を作り出していってのだ。

また、鳴き声シーケンサを作り、それでシーケンスを組んで鳴かせたり、場合によってはコール&レスポンスを実現させるなど、まさに自然界の様子をポケモンの声で合成していく、途方もなく地道な作業をしていたようだ。

また最新のゲームでは、それぞれのポケモンの鳴き声や草の揺れる音、波の音などを座標に配置し、プレイヤーからの距離などから、発音の優先順位やボリュームなどを調整するといったことも実現させて、リアル感を出しているとのこと。

きっとほとんどの人が気にもしてない環境音に、これだけの力が注がれていると思うと、本当に頭が下がる思いだ。今度ポケモンのゲームを見る際には、ぜひ環境音に注目してみると、新しい面白さが発見できるかもしれない。

以上、CEDEC2023からサウンド関連のごく一部のデモ・セミナーをピックアップしてみた。CEDECはゲーム開発者の集うイベントなので、一般の人が行く場ではないけれど、最先端技術が終結しているイベントでもあるので、今後もぜひチェックしていきたいと思っている。

藤本健

リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。 著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto