藤本健のDigital Audio Laboratory

第998回

AI超進化で“ことり”どうなる!? 歌声処理技術の最前線を見た

8月27日・28日の2日間、東京・中野にある明治大学の中野キャンパスにおいて情報処理学会が主催する「第138回音楽情報科学研究発表会」が開催された。タイトルからすると、少し物々しい印象だが、音楽をテーマにした研究の発表会であり、夏のシンポジウムという位置づけの催しだ。

そして本発表会では特別企画として、両日の夕方以降に「歌声情報処理最前線2023」と題したセッションが行なわれた。初日には声優の小岩井ことりさんもプレゼンテーションに参加し、パネルディスカッションを行なうなど、普通の学会とは異なるものだった。

今回、シンポジウムに両日参加してきたので、特別企画を中心にどのような内容だったのかレポートしてみよう。

10年振りに開催された“歌声情報処理最前線”

“情報処理学会”などと聞くと、ずいぶんお堅い印象を持つかもしれないが、その情報処理学会の中にはさまざまなテーマの研究会が存在している。その中の一つが音楽情報科学研究会(Special Interest Group on Music and Computer)、通称「SIGMUS」(音情研)と呼ばれているもの。ここでは、単に論文が発表されるだけでなく、デモ演奏や実演が多いため、私のような素人が見学しても、結構楽しいものが多い。

情報処理学会の個人会員になっているわけではないのだが、SIGMUSの存在自体は会社員だった'90年代半ばに知り、メルマガだけは登録して、時々やりとりをチェックしたりしていた。実際、SIGMUSの発足は1993年だったようで、2024年3月には、SIGMUSの30周年記念イベントがはこだて未来大学で開催されるという。

今回は第138回目の発表会だったわけだが、2010~2013年には「歌声情報処理最前線」と題した企画が3回行なわれ、筆者も参加している。今回そこから10年の時を経て、「歌声情報処理最前線」の4回目が行なわれた形だ。

第1~第3回のオーガナイザーを務めた産業技術総合研究所(産総研)の後藤真孝氏が、「歌声情報処理の過去・現在・未来」と題した講演の過去を担当し、これまでのシンポジウムを振り返った。

産総研の後藤真孝氏

ここで言う“歌声情報処理”とは、歌声を対象とした音楽情報処理のことだ。目立つのはもちろん歌声合成だが、それに留まらずさまざまな研究が行なわれている。

実際、第1回を振り返ると、現在テクノスピーチの社長である大浦圭一郎氏がHMM歌声合成システムを発表していたり、VOCALOIDをより人間っぽく歌わせるためのシステムVocaListener2を産総研が発表していたり、歌声を検出し音高をコントロールするシステム、歌声をモーフィングさせるシステムなど、ユニークな発表がされていたことは懐かしく思うところ。

その第1回の内容については、本連載の第428・429回でも紹介しているので、興味のある方はご覧いただければと思う。同様に、歌声情報処理最前線の第2回は第493回、第3回は第565回で紹介している。

AIの進化は声優の仕事を奪うのか?

冒頭でも触れた通り、今回の特別セッションでは、小岩井ことりさん、テクノスピーチの大浦圭一郎氏、SSS合同会社の小田恭央氏、そして今回のシンポジウムのオーガナイザーでもある明治大学の森勢将雅専任准教授によるパネルディスカッションが行なわれた。

左から小岩井さん、森勢准教授、小田氏、大浦氏

まず始めに、大浦氏、小田氏、そして小岩井さんがそれぞれ20分ずつプレゼンテーションを行なった。

大浦氏は過去の歌声情報処理最前線での発表内容やテクノスピーチでの実績などを紹介。東北ずん子や東北きりたん、ずんだもんなどを生み出した小田氏は、歌唱ソフトがトークソフトと比較すると売れない背景や、今後どうすれば売れるようになるのかを提案。

さらに小岩井さんは「レアなモーラを含む日本語歌唱データベースの構築と基礎評価」という論文で取り上げた日本語歌唱データベースをどのように作り上げたのか、という実践面を発表した。

小岩井ことりさん

ちなみにこの論文は、小岩井さん、森勢先生、そして筆者の3人で第20回情報科学技術フォーラムで発表し、FIT船井ベストペーパー賞を受賞したものだ。これについては、2年前に記事にしたことがあるので、こちらも参考にしていただければ、と思う。

プレゼンテーションの後には、会場から「AIがこれだけ発展した中、音声合成、歌声合成は声優の敵にならないのか?」「今後さらに発展してAI音声合成において演技ができるようになったら、どうするのか?」といった質問が上がった。

これに対し、小岩井さんは「声優は“声を出して表現している”だけではないんです。現場でやらなくてはならない仕事がいっぱい。たとえば音響監督や監督から、『◎◎◎なニュアンスでセリフが欲しい』、なんてオーダーがくるんです。果たしてそれがどういう意味なのか、台本を見ながら、前後のセリフや、それまでの話の展開などから判断して、どのくらいの距離感を持たせるのか、声のトーンをどうするのか、ボリュームは? など考えて演技していく必要があるんです。そこには表面と感情と内面の感情があって、その何とも言えないニュアンスを表現していくのが声優の仕事なんです。もし音声合成が演技していくとしたら、監督の指示を読み取って音声合成ソフトに指示する仕事、パラメーターに反映していく仕事が必要になってくるはずです。そのための人を立てて仕事をさせるというのは、コストパフォーマンス的に難しいのでは、と考えています。もし、それも自動でできるようになったら、その時はその時。声優という仕事自体が消えるときなんだろうなと思っています」と理路整然と答えてくれた。

一方で、会場からは「なぜ歌声合成って、アニメっぽい声ばかりなのか。そこが好きになれない。もっとアーティストっぽい歌声は出てこないのか。また女性の歌声が多いが、システム的に男性が苦手ということはあるのか?」といった意見も。

これに対し、大浦氏は「ウチは来たものなら何でも受けます。Sinsyのころのようにボコーダーを使って合成していたときは高い声は明瞭だけど低い声はあまり得意でない、という点はありましたが、現在は低い声でもまったく問題ありません」と話す。

一方、小田氏は「女性の歌声というオーダーが圧倒的なのも事実です。確かにDTMユーザーの場合、男性が多いので、自分では歌えない女性の声を求めるケースが多いのだと思います。また声に特徴のあるアーティストだと、AI化すると自分の競合になる可能性があるから積極的には参加しないのではないか」と、マーケティング上の観点から回答していた。

さらに小岩井さんへは「自分の声を学習したAI音声合成がしゃべる声を聴いて、自分だと感じるのか、似て非なるもの、と感じるのか?」といった質問も寄せられた。

それに対し、以前に「鳴花ヒメ・ミコト」というVOCALOIDおよび音声合成のCVを担当し、先日はAI音声合成・歌声合成のNo.7のCVも担当した経験のある小岩井さんは「以前は自分の声をサンプリングしたシンセの音に近いな、という印象をもっていました。それに対し、No.7では、『自分の声だなぁ』ってすごく感じます。AIは自分の癖を正確につかんで表現するので、明らかに私なんです」と話す。確かにAI音声合成、AI歌声合成がかなりのレベルまで進化しているのは間違いなさそうだ。

最新の歌声合成・音声合成技術

翌日の「歌声情報処理の過去・現在・未来」では、東京大学講師の高道慎之介氏による「ここまで来た&これから来る歌声合成・歌声変換」と題して講演が開かれた。

高道氏は2022年のNHK紅白歌合戦において、シンガーソングライターの松任谷由実さんが、AI技術で再現した50年前の自分と共演する楽曲を制作した人物である。冒頭では、その50年前の歌声を再現した際のエピソードなどが語られた。

また、高道氏は2019年に「HUNTERxHUNTERボイスチェンジャー」と題した音声変換技術を開発。ここではだれが喋ってもリアルタイムにそのキャラクタになれる技術となっていた。

今年にはいってからは、1960年代に録音された古い方言昔話音声を機械学習させて、現代に蘇らせることに成功し、方言昔話音声データベースの頒布も行なっている。また、人間のように「言いよどむ」音声合成であったり、人間のように笑う音声合成を実現させるなど、まさに最新の歌声合成・音声合成の開発に携わっている。

そうした経験を踏まえながら深層学習において「どんな歌声特徴量が使われるのか?」「自己教師あり学習は、歌声の何を表しているのか?」「合成モデル・変換モデルにどんなニューラルネットワークが使われているのか?」といった現状についての解説が行なわれた。

そして歌声情報処理最前線の最後には、ヤマハの研究開発統括部・才野慶二郎氏が登壇。「本来、学会の場で未来を語るのは企業ではなく大学だと思うけれど…」と前置きしながらも、ヤマハが未来を見据えた上で取り組んでいる宴合成研究として3つの事例が紹介された。

ヤマハの才野慶二郎氏

具体的には、「なりきりマイク」として多方面で話題になった「TransVox」、曲のニュアンス部分のみを人が操作するというAI歌声合成の「AI Artist Stage」、そしてつい先日プレス発表された研究段階の施策ソフトである「VOCALOID β-STUDIO」のそれぞれだ。

TransVoxについては昨年「“持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった」(第957回)として、才野氏にもインタビューする形で記事にしているので、詳細はそちらを参照いただきたいが、AI Artist Stageは確かに未来感いっぱいの技術のようだ。

TransVox
AI Artist Stage

現在、ヤマハ本社ビル内にある企業ミュージアムに展示されているとのことだが、ディスプレイに表示されるAIアーティストがAI歌声合成で歌っているなか、その前に置かれた非接触センサーに手をかざして操作することで、その歌声をリアルタイムに変化させられる、というもの。

ここでいう変化とは声のニュアンスを変えるという意味で、単に強弱をつけるのではなく、強く歌うとがなり声になったり、弱く歌うとささやくような歌声になるなど、人が歌声の演奏をリアルタイムにできるものだ。

そして「従来のDTM歌声合成の当たり前を改めて問う歌声合成の提案」として登場したのが、VOCALOID β-STUDIO。これはVOCALOIDの次期バージョンというわけではまったくなく、研究機関が未来の技術開発のために、ユーザー、クリエイターを交えた形でオープンに進めている実験プロジェクト。

VOCALOID β-STUDIO

ここでは未来の歌声合成に向けたさまざまな提案がされている。まずは前述のAI Artist Stageと同様に、リアルタイムに歌い方をコントロールする機能が実装されており、画面上のノブを動かすことで声の強弱のニュアンスが変化できるようになっている。

またVST/AUのプラグインとして動作するのは、これまでの歌声合成ソフトと同様だが、DAWとプラグインの関係が大きく変わっている。

従来、メロディーや歌詞は歌声合成ソフト側で入力するのが当たり前となっていたが、このVOCALOID β-STUDIOでは普通のソフトウェア音源と同様に、DAW側でメロディーも歌詞も入力するという形であり、前述の強弱パラメータも含め、ほぼすべてのパラメータをDAW側からコントロールでき、オートメーションも利用可能となっている。

こうした研究がそのまま製品につながっていくのかは未知数。まさに未来の研究を公開実験としておこなっているわけだ。

もちろん未来の歌声情報処理の研究はヤマハだけでなく、さまざまな企業、大学、研究機関などが行なっているもの。そうした研究者が企業や機関の壁を越えて一同に会するのが、このSIGMUSの面白いところだろう。ぜひ、今後も歌声情報処理に限らず、音楽情報処理全般についてSIGMUSを通じてウォッチしていければ、と思っている。

藤本健

リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。 著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto