プレイバック2021

作った本人も判別できず!? AI歌声合成の進化に触れた年 by 藤本健

No.7(セブン)

歌声合成の世界がこの1、2年で驚くような進化を果たしている。従来のVOCALOIDを否定するつもりはないが、それとはまったく別次元のAI歌声合成が台頭し、それがどんどん進化してきているのだ。もはや人が歌っているのか、もしくはコンピュータが歌っているのか、判別する事が難しくなりつつある。

そんな中、筆者は今年、ちょっと妙な形でAI歌声合成の世界に参加してみた。すでにご存じの方も多いと思うが、7月7日午後7時に、「No.7」というAI歌声合成音源がリリースされた。

これは声優の小岩井ことりさんの歌声を元にした音源だが、その音源づくりのプロジェクトにちょっぴり関わらせていただくとともに、その音源開発に関わる「レアなモーラを含む日本語歌唱データベースの構築と基礎評価」という論文を情報処理学会の第20回情報科学技術フォーラム(FIT2021)で発表。そして、その論文がFIT船井ベストペーパー賞を受賞した。今年1年を振り返った際の最大のトピックスだったかな、と思う出来事だ。

この論文だが、明治大学の専任准教授である森勢将雅先生、声優の小岩井ことりさん、そして私という、不思議な3人の連名で出している。私も昔々、情報処理学会に絡む大学に在籍していたことがあったが、もちろん学会とは無縁の世界で生きてきた。まさか、この歳になって情報処理学会で論文を出すとは夢にも思っていなかったし、今でも不思議な感じである。

左から筆者、森勢将雅先生、声優の小岩井ことりさん

でも、なぜここに小岩井さんや私の名前があるのか。実際どんな論文なのか少しだけ紹介してみたいと思う。

「No.7」を手掛けることになったキッカケ

事の発端は、2020年2月22日。通称「AIきりたん」なるフリーウェアとして配布された歌声合成ソフトが誕生し、そのデモ曲を聴いて驚いた。「これ、人間の歌声じゃん!」と。

その仕掛け人が、森勢先生であることを知り、数日後にアポを取り話を伺いに行った。その時のことはDTMステーションで記事にしているので、詳細は割愛するが「ディープラーニングを用いた歌声は、ここまで進んでいるのか」と感激した。

その取材後、別件の打ち合わせで小岩井ことりさんと会ったのだが、そこで森勢先生の話題をしたところ、小岩井さんが「私もやりたい!」という展開に。実は森勢先生と話をしていた際、「これから第2弾を企画しているけれど、いい歌い手さんはいませんか?」という相談を受けていたので、これはピッタリかな、と思ったわけだ。

しかも、ディープラーニングするための歌唱データは著作権の取り扱いが難しいことも聞いていた。単に機械学習させるだけであれば基本的に問題ないが、学術用・研究用に公開するとなったとき、JASRAC登録曲だった場合など、前例がないだけに、どうするべきかが難しい、という。

だったら、作詞・作曲、そして歌唱もできる小岩井さんなら、適任かもしれない。後日、森勢先生と小岩井さんを引き合わせ、No.7のプロジェクトがスタートした。

ここで目指したのは、単にAI歌唱が可能な第2弾の歌声データベースを作る、ということではなかった。No.7はあくまでも途中過程での生成物であり、実際にやろうとしたのは、誰でも歌声データベースを作ることができるプラットフォームづくり。つまり、小岩井さんが作詞・作曲した歌、計50曲を歌って録音すれば、誰でも容易にその人の歌声データベースが作れる、という世界を目指したのだ。

森勢先生が重要視したことの一つが、あらゆる歌を歌えるようにすること。

そのためには、ある一定以上の時間の歌を学習するとともに、その学習データとしてレアケースとなるモーラ、つまり「にぇ」など、日本語の単語としてもあまりない発音も学習させる必要がある。しかも、今後多くの人の歌声を録音して、機械学習させていくとなると、誰でも簡単に歌えるものでなければいけない。そこで森勢先生側から提示されたのが、論文内にもある以下の4つの条件だった。

1. 合計で約1時間程度の量にする
2. レアなモーラを可能な限り含めるようにする
3. 楽曲のテンポ、音高差、継続長についてもある程度バランスを取る
4. 歌いやすさを重視する

この条件を元に曲を作っていくのだが、10曲、20曲と仮納品した後に、足りないモーラや、音高差などを提示され、それを盛り込んだ曲を作っていくという作業。

実際には、計51曲を作詞・作曲するとともに、歌唱し、レコーディングして、ノイズ除去処理などを行ない、Melodyneを使って音を整える。一方で楽曲のMIDIデータやスコアデータも作詞して納品する……というかなりな重労働となった。さすがに小岩井さん一人では厳しいので、小岩井さんのスタッフが数名入って作業していったのだが、その進行管理を務めたのが私だった。

進行管理係としては、納期などを考えると、これはもう不可能なのではと思ったことも何度かあったので、よく完成したな、という思いでもある。納品後は、森勢先生や、実際の歌声合成ツールであるNEUTRINOの開発者・SHACHIさんにすべてお任せ。7月7日の数日前に、完成品を見せてもらったときは、その完成度の高さに驚くばかりだった。

日進月歩というよりも分進秒歩で進化しているAI歌声合成の技術ではあるが、2021年12月末現在、このNo.7が最高だなと思うのは、贔屓というところだろうか? 同じAI歌声合成のツールであるSynthesizer VやCeVIO AIも、どんどん進化しているので、比較は難しいし、好みの問題もあるとは思うけれど……。

最近は、小岩井ことりさんに似た歌い方、歌声の人がいるんだな

ところで、12月に入ったある日、Twitterで作曲家の佐々木宏人氏が、年末のコミケに向けて作ったという楽曲をUPしていて、これをたまたま聴いて、ちょっと驚いたことがある。

【MV】佐々木 宏人 with SEVEN - 異国人

'80年代のYMOやJAPANのオマージュで作ったという「異国人」。まさにJAPANという雰囲気の曲で、このフレットレスベースは、ミックカーンそのものじゃないか! とイントロで思い切り気に入ってしまった。

そしてそのボーカルを聞いて、「最近は、小岩井ことりさんに似た歌い方、歌声の人がいるんだな。まぁ、アイドルマスター作品を数多く手がけてる佐々木さんだから、周りにいっぱい声優さんいそうだし。最近の声優さんの歌い方の傾向なのかな」なんて思いながらTweetを遡って見ていたら、「桃源郷」という、JAPANそっくりな曲がUPされていて、そのボーカルにSEVENと書いてあるのを発見。ここでようやく、これが人間によるボーカルではなく、No.7であることを理解した。

ちなみに、あとで佐々木氏に伺ったところ、「異国人」「桃源郷」で使っていたのはAVENGER、Trilian、Ez Drumer 2などで、すべて打ち込みだという。

それにしても、No.7の制作に関わったはずの人間が、この程度の判断力なのだから、ちょっと恥ずかしい限りではあるけれど、AI歌声合成が普及してくると、人間による歌声なのかコンピュータによるものなのか、区別がつかないケースは増えてくるはず。数年後の世界がどう変わっているのか楽しみである。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto