プレイバック2018

AI歌声合成の大きな進歩。「VOCALOIDは終わった」のか? by 藤本 健

2018年をDTMの観点から振り返ってみると、最大のトピックスは何といっても歌声合成システムの飛躍的な進化。マイクロソフトの女子高生AI「りんな」がディープラーニングによって、驚くべきほど上手に歌えるようになったこと、そしてつい先日、名古屋工業大学とテクノスピーチが共同で「超高音質な歌声を再現するAI歌声合成システム」を発表し、その上手な歌声を披露したことは、衝撃的な出来事だった。まだ、その歌声を聴いていないという方は、それぞれのサンプルを聴いてみてほしい。

マイクロソフトの「りんな」は“AI歌手”に
マイクロソフト女子高生AI「りんな」の歌声
名古屋工業大学とテクノスピーチが共同で歌声合成技術を発表
名古屋工業大学とテクノスピーチのAI歌声合成システム

これらを聴いてどう感じるかは人それぞれだし、批判的に意見する方が少なからずいることは重々承知しているが、個人的にはどちらも手放しで称賛する。

VOCALOIDの最初のバージョンがヤマハから発表されたのが2003年2月だから、そこから15年、VOCALOID 2をベースとした初音ミクがクリプトン・フューチャー・メディアから発売されたのが2007年8月だから、そこから数えても11年。もちろん、その間もいろいろと進化してきたし、どんどん人の歌声に近づいてはきていた。ボカロという音楽ジャンルも生まれ、ユーザーのノウハウも向上してきたため、音量変化やピッチの変化を上手にマウスで描いて、よりリアルにしていく、いわゆる「調教」という職人芸がもてはやされたりもした。

これまで数多くの歌声ライブラリーも開発・発売されてきたし、システム的にはVOCALOIDもバージョンを重ね、今年7月にはVOCALOID 5がリリースされた。その一方で、2013年4月にはVOCALOIDの競合ともいえるCeVIOというシステムもリリースされ、VOCALOIDとは異なる技術での歌声合成があることが認知されてきた。

7月にリリースされたVOCALOID 5
最新のCeVIO Creative Studio 6

ただ、どちらもその歌声を聴けば「いかにもコンピュータが合成している」と感じさせるものではあり、「上手になった」、「すごくキレイな歌声だ」、「歌詞が聴き取りやすい」……などといっても、人間の歌声とは異質なものであったことは事実だ。

でも「だからこそいい」という声があったのも確かだし、「人間の歌声とは違うことがいいんだ」と主張する人も少なくない。このことはシンセサイザ・電子楽器がピアノそっくりな音を目指して開発する過程でエレクトリックピアノというものが生まれ、当初はピアノに似てるとか、まったく似てない、といった議論がされていたが、気づけばエレピという新しい楽器として認知され、数多くの名曲を生んできたのと同じことなのかもしれない。

VOCALOIDの生みの親であるヤマハの剣持秀紀氏は、筆者との共著「ボーカロイド技術論~歌声合成の基礎とその仕組み」(2014年発売)の中で、次のようなことを述べている

人の歌声の表現力を富士山に例えれば、VOCALOID 3までで実現できているのは、まだ2合目か3合目。最終的にはエレクトリックピアノのように別の音源になるとしても、まだまだ人の歌声に学んで、真似ていくべき要素が数多くあるのです。電子楽器の開発の歴史を振り返ると、アコースティック楽器に近づけるという側面と、新しい音色の探求という2つの軸がありました。VOCALOIDもまさに同じ状況で、合成音声にしか出せない音色・表現も大切ですが、人間の声に限りなく近づけるということもまた大切なのです。

「ボーカロイド技術論~歌声合成の基礎とその仕組み」

ヤマハもマイクロソフトも、また名古屋工業大学も、人間の声に限りなく近づけることを目指してきた結果、「ディープラーニング」という技術を活用し、マイクロソフト、名古屋工業大学が大きく飛び跳ねた、ということなのかもしれない。

もっとも、今回のAI歌声合成システムほとではないが、VOCALOID3の時代でも、それなりに人間っぽく歌わせる技術は登場していた。以下は2012年10月、筆者のブログ、DTMステーションにUPした動画で、ミュージシャン・作曲家のエハミック氏が作成したもの。

「ぼかりす」合成結果の最終ミックス

これは産業技術総合研究所で開発された「VocaListener」を用いて歌わせたものだ。詳細は割愛するが、人間の歌声をお手本にし、ボリュームの変化、ピッチの変化を抽出して、VOCALOIDのパラメータとして割り当てるということを行なっていたのだ。

産業技術総合研究所が開発した「VocaListener」を用いて歌わせた

それなりに手間がかかる方法だったが、それをより正確に、より多くの要素を用い、ディープラーニングで実現させたのがマイクロソフトの手法だったのだろう。もちろん、マイクロソフトのりんなの歌声合成はVOCALOIDでの合成方法とは異なりHMM(Hidden Markov Model)=隠れマルコフモデルを用いているので、簡単に比較すべきものではないのだろうが……。

さらに、その学習方法をより一般的にし、ベタ打ち、つまり歌詞と音符情報だけで歌わせることを可能にしたのが、名古屋工業大学とテクノスピーチが共同で発表したシステムのようだ。歌声合成エンジン自体はHMMを用いたCeVIOがベースになっているようで、先ほどの歌声自体は、CeVIOでリリースされている「さとうささら」を用いたもの。いずれにせよ、まだ発売されているわけではなく、一般ユーザーが使える段階ではないが、早く登場してくれることを心待ちにしている。

今回のAI歌声合成システムのデモ曲を聴いて「VOCALOIDは終わった」といった発言も結構見られたが、そう考えるのは早計。きっとヤマハもディープラーニングの手法は取り込んでくるだろうと思うし、そうであると願いたい。それが実現すれば、場合によっては冒頭のデモ曲のレベルを大きく超える人間的な歌声のVOCALOIDも出てくるのではないだろうか?

2019年は、そんな歌声合成を一般ユーザーが使えるようになる年になることを期待したいところだ。

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto