藤本健のDigital Audio Laboratory
第959回
貴方の歌声が“ボカロ音声”に。新機能「VOCALO CHANGER」が面白い
2022年10月24日 09:06
すでに報道されている通り、10月13日、ヤマハから「VOCALOID 6」が発表・発売された。VOCALOID 5以来、4年ぶりの新バージョンとなったが、今回の最大のトピックスは“AI歌声合成”に対応したことだ。
VOCALOID 5の登場後、Synthesizer VやCeVIO AI、VoiSona、NEUTRINOなど、AI歌声合成に対応した競合ソフトが次々と登場する中、VOCALOIDだけが取り残されたような状況だったが、いよいよ本家もAI歌声合成に対応してきた。
VOCALOID 6の機能についてはいろいろなメディアでも取り上げられているので、ここでは、VOCALOID 6に搭載された飛び道具的な機能「VOCALO CHANGER」(ボカロ・チェンジャー)に焦点を当てる。
VOCALO CHANGERとは、人の歌声をVOCALOIDの歌声に変換してしまう機能。いわゆるボイスチェンジャーに近いものではあるが、声にエフェクトをかけるのではなく、声の成分を分析した上で、VOCALOIDによって再合成させるというものだ。実際どのような機能で、変換された歌声がどうなるのか、実験も交えながら紹介していこう。
AI歌声合成エンジンを搭載した「VOCALOID 6」
本題に入る前に、ごく簡単にVOCALOID 6について触れておこう。
従来のVOCALOIDはサンプリングベースのシステムで、人間の声をサンプリング(=録音)したものを、音素ごとにバラバラにし、言葉としてキレイにつないで歌わせるものだった。
それに対し、今回のVOCALOOID 6では“VOCALOID:AI”というAI歌声合成エンジンを採用し、人間が歌唱した歌声をディープラーニングさせ、その学習結果を元にして、歌わせるシステムになった。そのため、サンプリングデータは使わず、ボコーダー的なシステムを介して歌わせる。結果、より滑らかで人間的に歌うようになっている。
VOCALOID 6という製品には、エディタに加え、VOCALOID;AIに対応した歌声のデータベースであるボイスバンクが日本語×2、英語×2の計4つ入っている。試しに日本語の女性のボイスバンクである「HARUKA」に歌わせてみたのが以下の動画だ。
単純に音符と歌詞を入力しただけのベタ打ちではあるけれども、上手に歌っているのが分かるだろう。ちなみに従来のサンプリングベースのVOCALOIDのボイスバンクはGB単位のファイル容量だったのに対し、このHARUKAは8MB程度と1/100以下になっているのも見逃せないポイント。これがAIの威力というわけだ。
ただ、これを聴いてみて「やっぱり機械っぽい歌い方だな」と思われる方も少なくないだろう。ほかの競合ソフトが、より人間っぽい歌い方になっているのと比較すると、従来のVOCALOIDにも近いニュアンスだが、これは方向性の違いということのようだ。
ヤマハは、楽器としての発展を目指しており、当然滑らかな歌い方にはしていくけれど、あくまでも作り手が歌わせ方をコントロールする、ということに主眼を置いている。つまり作り手が抑揚をつけたり、ピッチの動きを細かく調整することによって、思い通りの歌い方をさせることを意図したソフトになっている。ベタ打ちだと、どうしても単調な歌い方になってしまう、ということのようなのだ。
ちなみに、VOCALOID 6は、このAI歌声合成に対応したVOCALOID:AIというエンジンを持っているだけでなく、従来のサンプリングベースのVOCALOIDエンジンもそのまま搭載したハイブリッドエンジンとなっている。
実際、VOCALOID 6にはVOCALOID 5に搭載されていたのと同じサンプリングベースのボイスバンクが4つ収録されており、VOCALOID:AIのものと合わせると8つのボイスバンクが入っている。当然、初音ミクや結月ゆかりなど、VOCALOID 3~5に対応したボイスバンクも読み込んで使えるようになっている。
“持田香織になっちゃうマイク”と同じ技術を搭載
ここからが今回の記事の本題である。VOCALOID 6にはVOCALO CHANGERなるユニークな機能が搭載されている。これは冒頭でも触れたとおり、人間の歌声をVOCALOID:AIで合成する歌声に変換するというものだ。
先日、「“持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった」という記事で、ヤマハが研究開発している「TransVox」(トランスヴォックス)という歌声変換技術を紹介したが、このVOCALO CHANGERもTransVoxの技術が使われている。
“持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった
ただし、同じTransVoxでも、持田香織の歌声になる「なりきりマイク」と、VOCALO CHANGERでは、だいぶチューニングが違うものになっており、使い方も大きく異なる。
どういう事かというと、なりきりマイクの場合は、リアルタイム処理されるとともに、適当に歌っても、また多少歌い方が下手でも、持田香織本人の歌い方そっくりに変換されるのに対し、VOCALO CHANGERはリアルタイム変換ではなく、あらかじめ用意しておいたWAVファイルを変換する形になっている。そして、その用意したWAVでの歌い方に忠実なデータが生成され、ボイスバンクの学習した歌い方が強く出るというわけではないようだ。
またなりきりマイクは、大きなノイズのある中や、カラオケのバックが大きくても、入力されたボーカルのみを変換する仕組みだが、VOCALO CHANGERはそのようなノイズ除去などはできないので、キレイなボーカルを入力する必要がある。
まぁ長々と説明するよりも、音を聴いてみるのが一番わかりやすいはず。まずは、VOCALOIDではなく、人の歌声をそのまま再生したものがこちらだ。
この歌声をVOCALO CHANGERで、VOCALOID:AIのボイスバンク・HARUKAに変換してみた。
いかがだろうか。これが歌声合成によるボーカル、VOCALOID 6の歌声だと知ったら、ちょっと驚くのではないだろうか。
こちらの歌声には元の声の成分は一切入っていないので、完全に合成音声によるもの。変換はいたって簡単で、読み込んだオーディオクリップを選択すると、画面下に波形が現れるが、その上にあるVOCALO CHANGERという項目からターゲットとなるボイスバンクを選ぶだけだ。
選ぶと即変換が始まり、CPU処理速度にもよると思うが、尺の実時間程度で終了する。ちなみにVOCALO CHANGERで利用できるのは、あくまでもVOCALOID:AIのエンジンであって、従来のVOCALOIDエンジンに、これを適用することはできない。
ここで少し、この実験の素材について紹介しておこう。今回使った曲は、筆者と作曲家の多田彰文氏で共同運営しているレーベル・DTMステーションCreativeで2018年にリリースした小岩井ことりさん歌唱のアルバム「Harmony of Birds」の1曲目「ハレのち☆ことり」の一部。
以前「小岩井ことり楽曲がステムデータ配信!? DAWを使った音楽の楽しみ方」という記事でも紹介した通り、そのときのアルバムをe-onkyo musicでステムデータ(各パートごとのWAVファイルデータ)として配信しているので、そのデータの中からボーカルとオケを持ってきて、VOCALOID 6 Editor上に展開して鳴らしたものなので、誰でも同じ実験ができるはず。
ちなみに、ボーカルを素のままだとやや味気ないため、コンプレッサとリバーブをうっすらかけて、オケに馴染ませている。
小岩井ことり楽曲がステムデータ配信!? DAWを使った音楽の楽しみ方
では、そのコンプレッサやリバーブも、オケもないボーカルのみの状態で、SOUND FORGE Pro 16で波形表示させて比較するとともに、SpectraLayers Pro 9でスペクトラム分析表示させて比較したものがこちら。
音がかすれてしまう原因の一つは、音量の大きさもありそうで、0dB近くまで振り切っているとどうしても、歪んだり、かすれてしまうため、オリジナルより3dBほど下げてみたが、それでも少しかすれてしまっている。SpectraLayersの結果を見ると、低域に出ている音がかすれの原因のようにも見えるので、少しローカットすると、改善しそうだが、今回はとりあえずの実験ということで、ご理解いただきたい。
この簡単な変換でも分かる通り、VOCALOID:AIのエンジンで歌わせるにあたり、音符データも歌詞データも入れておらず、単純にオーディオデータを入れただけ。だったら、英語のボイスバンクでもうまくいくのでは? と、SARAHに変換してみるとこんな感じになった。
これを聴く限り、日本語のボイスバンクか英語のボイスバンクかの言語的差はほとんどなさそうだし、聴いた感じHARUKAよりも英語のSARAHのほうが、元気でいいニュアンスに感じる。もう一つ、VOCALOID 6と同時発売になったインターネットのボイスバンクである「AI Megpoid」に変換したものがこちらだ。
小岩井さんの声の雰囲気に近いという意味では、このAI Megpoidが一番近いようにも思う。
さらに試してみたのが男性ボイス。VOCALOID 6には日本語のボイスバンクとしてAKITO、英語のボイスバンクとしてALLENというものがある。これらにそのまま変換すると、音域的にやや高すぎるため、右側にあるCHANGE PITCHというパラメータを-12と1オクターブ下げて変換した結果がこちらだ。
これらも、なかなかいい声になっているのがわかるだろう。ヤマハに確認したところ、これらVOCALO CHANGERは、すべてVOCALOID:AIのパラメータだけで歌わせているので、調整すれば、こうした歌声が作れないわけではない、という。
とはいえ、実際そこまで追い込むことは難しいので、ぜひ、この変換結果をMIDIデータとしてVOCALOID:AIのトラックで見れたり、編集できるようにしてほしい。
それが可能になれば、まさに「お手本を聴かせて、その通りに歌わせる」ことが可能になり、より細かいところはエディットするなど、できることの幅が大きく広がる。この辺の展開に期待したいところだ。