プレイバック2022

AI歌声合成が歌手を超えた'22年。「Synthesizer V」の進化に驚愕した by 藤本健

VoiSona

昨年末のプレイバックでもAI歌声合成について書いたような覚えがあるが、今年2022年を振り返ると、ますますAI歌声合成が進化し、発展した1年だったように思う。そこで改めてAI歌声合成の1年を振り返りつつ、今後の課題についても考えていきたい。

ここ数年でAI歌声合成がどんどん進化してきているが、この2022年はまさに激動の年であり、歌声合成界の歴史に残る1年だったのではないかと思っている。

テクノスピーチが「VoiSona」というプラグインのサブスクリプションサービスを開始したのも驚きだったし、その姉妹ソフトである「CeVIO AI」も次々の新キャラクタを投入しラインナップが充実していった。

CeVIO AI

そして、歌声合成の老舗であり、本家であるヤマハのVOCALOIDも10月に「VOCALOID 6」を発表・発売し、後発という形でAI歌声合成の世界に参入したのだ。

VOCALOID 6

が、そうした各種AI歌声合成ソフトがある中で、中でも最も大きな活躍を見せたのが、若干26歳の天才中国人青年カンル・フア氏による会社、Dreamtonicsが開発を続けているソフト「Synthesizer V」だろう。

カンル・フア氏
DTMステーションの記事「AI歌声合成に命を吹き込むSynthesizer V 1.8.0発表。歌姫Maiの歌声データベースはSynthesizer V Studio Proユーザーに無料で公開へ!」より
Synthesizer V

国内の発売元AHSがSynthesizer Vを発売したのは2020年7月のこと。その後、バージョンは1.0から1.1、1.2、1.3……とアップデートしていった。

数字的にはマイナーバージョンアップという扱いで、ユーザーはすべて無料でアップデートできる形だったが、“0.1”上がるごとにとんでもないほどの性能アップを続けてきた。普通の企業であれば、有償でのメジャーアップデートすべきものと感じるのだが、無料でアップデートを続けているのも人気の大きな要因となっているのだと思う。

そのSynthesizer Vだが、昨年末に1.5をリリースし、かなり人間に近づいた。しかし、その後、今年3月にボーカルスタイルを切り替えられる1.6をリリース。さらに7月にはAIリテイク機能なるユニークな機能を持つ1.7を出して、大きな話題となった。

性能向上が凄すぎたために、ユーザーの間に一部混乱が生じたのも事実だが、それを解消するための1.7.1をすぐにリリース。と思ったら、11月にはカンル氏曰く「いろいろと性能向上させるために、ソースコードをゼロから書き直した」という1.8.0をリリースしたのだ。

その1.8.0のリリース前に、1.8.0と同時リリースの歌声データベース、Maiによる歌声のデモが披露されたのが、こちらの動画だった。

【Synthesizer V AI Mai】Merry-Go-Round【公式デモ曲】

このMaiの歌声は、まさに音楽業界全体に衝撃が走った感じだった。筆者はYouTube公開の少し前に、カンル氏から直接デモを聴かされるともに、1.8.0について説明を受けたのだが、この歌声自体が人間的なのはもちろんのこと、高い声がファルセットになるあたりの自然さ、息遣いのリアルさ、声のつながりの自然さ……どこをとっても人間そのものであり、下手な歌手よりも遥かに上手いレベルに達してしまっている。

通常のボーカルのレコーディングだと、最後にピッチ補正をしたり……というのが当然のように行なわれる結果、人間が歌っているのに、機械っぽく感じるケースも多い。

しかしこのMaiの場合、微妙にピッチを外すあたりまで、人間っぽいのだ。しかも、そのMaiという歌声データーベースは、Synthesizer V Studio Proのユーザーであれば無料でもらえるサービスソフトだったことも、大きな驚きだった。2020年7月のリリースから2年半でここまで成長するとは想像もしていなかったのだが、特にこの1年の成長具合は凄かったと思う。

ただ、Synthesizer Vは最初からAI歌声合成ソフトだったわけではない。

最初はHMMに近い合成方式であったが、2020年12月のタイミングで初めてSynthesizer V AIというエンジンを搭載し、AI歌声合成ソフトとしてデビューした。しかしその時点では、今のようにリアルというわけではなく、ある意味ボカロっぽい人工的な歌声合成な雰囲気だった。

AHSおよびDreamtonicsとしては、非常に人間っぽくなったと発表していたし、実際それまでのスタンダードエンジンと比較すると、人間っぽくなっていたが、その時点ではテクノスピーチの歌声のほうが断然人間っぽいな、という印象を持っていた。

それとともに、当時考えた仮説があった。(結果的にはその仮説は大きな間違いだったが)、それは「カンル氏が中国人であり、日本語ネイティブではないから、リアルな日本語を歌わせるのは難しいのではないか」というもの。

なぜ、そんなことを考えたかというと、10年くらい前にスペイン語のVOCALOIDの歌を聴いたら、まさに人間の歌声のように感じてしまったからだ。つまりネイティブではない言語だと、人間なのか、機械なのかが判別しにくく、その結果、開発者がネイティブの言語でないとチューニングが難しいのではないか、と考えたのだ。

その話を当時カンル氏にぶつけてみたところ「そうではない」と否定し、「さらにリアルになっていく」と強調していたことは、いまもよく覚えている。

結果的には、カンル氏が、さまざまな工夫をするとともに、世の中のディープラーニング性能が向上していった結果、先ほどのMaiのような歌声が可能になっていったわけだ。つまり、開発者が恣意的なチューニングをするのではなく、人の歌声をしっかり深層学習させれば、どの言語であっても、本人そのものに近づいていく、ということなのだ。

Synthesizer Vのユーザーであればご承知の通り、人間さながらにリアルに歌うのは、Maiばかりではない。Sakiや、小春六花、京町セイカ、弦巻マキ……、また男性ボイスではYumaやRyo、Kevin……など、数多くのAI歌声データベースがあり、いずれも非常に人間っぽく歌う。

そして面白いのは、エディタソフトであるSynthesizer V Studio Proをアップデートすれば、歌声データベースも同時にアップデートされ、上手に歌うように進化する点。Dreamtonics側でディープラーニングをし直すことで、よりリアルな歌い方ができるようになる仕組みになっているのだ。

この先、まだまだラインナップは増えていきそうだし、さらに機能、性能が進化するとどうなるのだろう? と期待が膨らむところだが、ふと立ち止まって考えたとき、将来、誰が、何のために使うソフトなのか、と頭をよぎる。

VOCALOIDは、初音ミクを筆頭に、大きく広がり、一大ブームというか、ボカロ文化というものを生み出した。明らかに人間とは異なる声だからこその面白さがあったことは事実だと思うし、そういう声、歌い方が好きというファンも多かったと思う。それに対し、Synthesizer VをはじめとするAI歌声合成は、どんどん人間に近づいてきていて、もはや人間か機械か判別できないレベルにまで来ている。

こうなったときに、リスナー的には「だったら、人間でいいじゃん」という反応の人も少なくないし、そういう面はある。

もちろんキャラクタを付けて、そのキャラクタを盛り立てていくという方法もあるとは思うけれど、初音ミクのような熱狂的なファンを数多くつけるというのは簡単ではなさそうにも思う。

一方で、作曲家、クリエイターにとっては仮歌用として使うという点が注目されているのは事実。

仮歌とは実際のレコーディングの前に、まさに仮のボーカルを入れるもので、実際、世の中には仮歌さんと言われる職業(実際には、本業はシンガーでありつつ、名前を出さずに仮歌業を営んでいる人も多い)も存在している。

そうした作曲家からは、非常に使いやすいい仮歌さんであり、「ここまでのクオリティが出せるなら、仮歌さんはいらないや」と言い切る人も出てきている。そして実際に、プロの作曲家がSynthesizer Vでコンペに出して、実際採用された…というケースまで出てきているのだ。

まさに仮歌業がピンチに立たされているところではあるけれど、非常にニッチな仕事ではあるので、世の中全体に大きな影響を及ぼすほどではないのかもしれない。

もちろん、趣味でDTMをしている人が人間のシンガーを連れてくるのは難しい中、AI歌手に歌わせるというのは、VOCALOIDで行なわれてきた点と共通ではあるけれど、そこに本当にファンがついてくるのか? というのが気になるところ。

日本のマーケットだけでは物足りない、ということであれば、海外展開すればいいいじゃないか、とも思うところだが、仮歌に限っていうと簡単ではなさそう。

K-POPの場合は、まさに仮歌というものが存在するけれど、欧米の楽曲制作において、仮歌という概念そのものがほとんどないのだ。コーライト(共同音楽制作)という手法が一般的な欧米の場合、シンガーが一緒に曲作りに参加していくため、そもそも仮歌が登場するシーンがほとんど存在しないのだ。

技術的には、人間と変わらないレベルまで成長してきたAI歌声合成は、今後どのように音楽制作の世界に根付いていくのか。

ボカロ文化のようなもののAI歌声合成の世界でも広がっていくのか、それとも全く新しい文化が誕生するのか。この辺はメーカーも、クリエイターも、そして一般のリスナーも一緒に考えながら、世界最先端を進む日本のAI歌声合成の世界を発展させられたら、と思っているところだ。

藤本健

リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。 著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto