藤本健のDigital Audio Laboratory
第957回
”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった
2022年10月3日 12:27
テレビ番組などでも話題になっているので、ご存じの方も多いと思うが、“自分の歌声が持田香織さんの歌声になる”というユニークなサービスが、第一興商のカラオケ店「ビッグエコー」で実施されている。
その名も「なりきりマイク feat.ELT持田香織スペシャルルーム」。
8月25日から10月11日まで、全国3店舗(東京・渋谷センター街本店、静岡・浜松有楽街店、大阪・梅田茶屋町本店)で展開されており、カラオケの通常料金のみで利用できることもあって、Every Little Thingのファンなどが詰めかけ、大人気となっているようだ。
実はこのサービス、ヤマハが研究開発している新技術「TransVox(トランスヴォックス)」を使い、“人の歌声を別人の歌声にリアルタイム変換している”らしい。実際どんな技術で、どんなことを行なっているのか、浜松にあるヤマハ本社で、研究開発の背景などを聞いた。
年齢や性別を問わず別人の歌声に変えるヤマハ「TransVox」
TransVoxは、歌声の特徴や音の高低に応じた音色の変化など、歌い方の癖をAIに学習させることで、年代や性別を問わずどんな人の歌声でも特定の人の歌声に変換することができるというヤマハの音声合成技術だ。
現在はまだ研究開発段階なのだが、今回、実証研究としてEvery Little Thingの持田香織さんとコラボレーションし、前述の「なりきりマイク feat.ELT持田香織 スペシャルルーム」が実現した。
ビッグエコーの渋谷センター街本店、浜松有楽街店、梅田茶屋町本店には、それぞれ1室ずつスペシャルルームが用意されており、そこには自分の声を持田香織さんの歌声に変換できる“なりきりマイク”が設置されているとともに、ELT仕様スペシャル装飾がされているそうだ。
どの店舗も予約でいっぱいになっているようだが、ヤマハ本社に同じシステムを用意してもらい、さっそく担当者に実演してもらった。その様子が以下の動画。
どうだろうか? こちらからのお願いで、わざと歌を止めたり、歌詞を間違えたり、途中で喋ってもらったりしている。担当者の生声も聴こえるように撮影しているので、けっこうリアルに変換されている様子が伝わるのではないだろうか。
歌ってもらったのは、なりきりマイクの企画担当者であるヤマハ ブランド戦略本部 マーケティング統括部 マーケティングプランニンググループ主事の倉光大樹氏。
その倉光氏とともに、同じマーケティングプランニンググループの川手晴子氏、TransVoxの研究開発を行なっている研究開発統括部 第1研究開発部 音楽情報処理グループ 主事の才野慶二郎氏、同じく大道竜之介氏の4人に話を伺った。
ビッグエコー3店舗に限定導入。ELTファンからも大好評!?
――なりきりマイク、かなり話題になっているようですね。まずは登場の経緯を教えてください。
倉光氏(以下敬称略):誰かの声を別の人の声にリアルタイム変換する研究が行なわれていた中、2年ほど前に、この技術を何に活かすべきか? という議論をしていました。
最初は歌ではなく、喋りも視野に入っていたのですが、まだまだ製品化には程遠い状況でした。そこで、まずはこの技術をPRすることから始めることにしました。
そのためには、多くの方に使ってもらうのがいいので、「カラオケがいいのではないか」となったわけです。“カラオケで誰かの声になる”……それが「なりきりマイク」の企画の原型でした。
そこからアーティスト探しを始めていきまして、実際に作るにあたり“声の特徴が分かりやすい方がいい”となり、ELTの持田さんに話を持ち掛けたところ、結構いい反応を得られたので、今年の春頃から作り始めました。
――製品発売前のプロモーションというわけではなく、研究段階のものを出したということですね。
倉光:その通りです。まだまだ研究段階ですから、1,000個作ってプロモーションで配る……といったわけにはいきませんでした。限られた場所で、多くの方に使ってもらうという意図で、ビッグエコーの渋谷、浜松、梅田店で各1部屋、3つのシステムを設置してもらいました。
実はここまで大きく注目されるとは想定していなかったので、今の反響は非常にありがたいと感じています。ELTファンも多く集まってくださっているようで、カラオケ機材の曲履歴を見てもELTで埋め尽くされているようです。もちろん、ELTの曲や持田さんのソロ曲に限らず、ほかのどんな曲に使っていただいてもお楽しみいただけます。
――実際になりきりマイクを利用しているのは、男女どちらが多いのでしょう。
川手:来店されている方のデータが取れているわけではないのですが、TwitterなどのSNSを見ると「持田さんの大ファンだったので、持田さんになれて嬉しい」といった女性のコメントを多く見かけます。ですから、女性のほうが多いのでは……と思っておりますが、男性の方も利用してくださっているようです。
――先ほど、“声の特徴が分かりやすい方”ということで持田さんを選んだとおっしゃっていましたが、もう少し詳しく教えてください。
倉光:「この声は〇〇さんだよね」というような一定の認知度があって、年代的にもカバレッジが広い方という観点から、持田さんにお声がけさせていただきました。若手のアーティストだと、知っている方が限られてしまいます。誰もが分かるような“代表曲”を持っている方がいいだろう、と。持田さんであれば、代表曲「Time goes by」を聴けば、多くの方がすぐに「あ、この声は持田さんだ」と分かる、という意味です。技術的にこの方でなければいけない、という訳ではありません。
才野:技術的には誰の声にでも変換することは可能です。さすがにずっとデスボイスの方だと難しいかもしれませんが……。持田さんのクリアトーン、伸びやかでキレイな歌声は、テクニカル的には非常に相性はよかったと思います。
声の大きさやピッチなどの特徴を抽出し、持田さんの歌声に変換
――リアルタイムに声を変換する技術はどのように生まれたのでしょうか?
大道:我々は「VOCALOID」の研究を20年くらい前から続けてきており、その中でリアルタイムに声を変換する研究もずっと続けていました。もちろん、リアルタイムでの歌声変換技術の研究はVOCALOIDだけなく、さまざまな方法で研究をしていましたが、今回の「なりきりマイク」は2年前の技術が発端となっています。
具体的には、DNN(=Deep Neural Network/深層学習)を用いており、信号処理で歌声を作る世界にAIが融合してきているのです。
大道:たとえば、僕の声を持田さんの声にするとしましょう。その場合、僕の声の特徴としてどれくらいの大きさなのか、どのくらいのピッチなのか、声の表情はどうか、などを取り出します。それを持田さんの声を学習したAIが、こういう大きさ、こういうピッチだったら、こんな声だろう……と再合成するわけです。
つまり、僕の声は全く使われておらず、あくまでも“特徴”のみを使っているのです。ボイスチェンジャーなどの声を加工するエフェクトの場合は、加工後に自分の声の成分が残っていますが、今回の技術は持田さんの声そのものが使われていて、元の声の成分自体は存在しません。
――VOCALOIDなどの歌声合成ソフトの場合、歌詞とピッチを与えることで歌声合成を行なっていますよね。今回のなりきりマイクは、入力から歌詞・文字を認識させて、再合成しているわけではないと。
才野:その通りです。「ふふふ」といった歌声でもいいですし、「あ」と「い」の中間のような、文字にしくい歌声でも変換することができます。
――ということは、英語やその他の言語で歌ったとしても、その声が持田さんの歌声になるというわけですか?
才野:不可能ではありませんが、外国語は苦手です。なぜなら、持田さんの歌声を学習したデータの中に外国語があまり入っていないため、学習データ量の少ない英語などは得意ではないのです。
「あ」と「い」の中間という文字はないのですが、日本語の発音ではよく登場するものなので、これは出しやすいのですが、英語の“R”の発音は出てこないので、どうしても苦手です。無理に歌わせても、日本人が歌ったような英語になってしまいます。もっともアメリカ人やイギリス人の歌声を学習させれば、英語も得意になると思います。
――今回のなりきりマイクですが、持田さんの声は新しくレコーディングしたものを学習させているのですか?
倉光:いいえ。今回は、レーベルからお借りした過去のレコーディングデータからボーカルトラックを学習させました。その意味では、海外レーベルのアーティストが歌う英語曲のボーカルトラックを持ってくれば、その方の声で歌うことも可能というわけです。
――実際にどのような曲をどれくらい学習させたのですか?
才野:そこは内緒です(笑)。ただ、学習させた曲の中には、もちろん「Time goes by」は入っています。
変換処理はマイクではなく、箱に隠れたPCが担当
――ハード的なシステムについても教えてください。
倉光:なりきりマイクとしてカラオケルームに置いてあるのは、マイクと、コントローラーですが、隠れた箱の中には、PCとオーディオインターフェイスが入っています。「なりきりマイク」という名前でもありますから、多くの方が、マイクで声が変換されていると思っているようですが、実際は箱の中のコンピュータで変換が行なわれています。
――このマイクは、シュアの「SM58」をラッピングしたものですね。PCやオーディオインターフェイスには、どのような製品が使われているのですか?
大道:今回店舗に設置しているのはごく一般のPCで、CPUとしてはCore i5を搭載したマシンです。
それから、オーディオインターフェイスには、Steinbergの「UR22C」を使っています。UR22Cの出力とDAMの機材からのカラオケ出力を、カラオケルームにあるアンプでミックスするという、シンプルな構成ですね。
才野:店舗では、トラブルなく安定して動作するように比較的高性能なPCを使っていますが、普段は事務用のPCで動かしているくらいですし、サンプリングデータが収録されているわけではないので、容量的にも小さいです。
――先ほど少し試してみましたが、レイテンシーも非常に小さく、本当にリアルタイムに変換していると感じました。
大道:そうですね。レイテンシーを短縮する開発にはかなり力を注ぎました。これにはAI技術のアドバンテージが活用できた部分があります。カラオケでは、レイテンシーがあると歌えなくなってしまいます。サンプリングベースのシステムでは、ディスクアクセスなどがボトルネックとなり、リアルタイム性が難しくなります。
一方、AIで音を作ると言っても、1秒の音を作るのに100秒以上かかるような技術もあります。今回はより技術を進化させ、処理量も遅延も小さくなり、リアルタイムとの相性を良くしました。
才野:サンプリングとDNNではシステムが違いますから、単純な比較はできません。ただ、AI技術が以前に比べて導入しやすくなったことは確かだと思います。今回のなりきりマイクでは、AI処理の高速化を図り、現時点で48msecでの変換を実現しました。
正直、もう少し縮めたいところではありますが、品質とのバランスを取りました。下手に詰めすぎて変換の品質が落ちてしまっては意味がありません。カラオケで違和感なく楽しんでいただける事を考え、このレベルに落ち着いた感じですね。
――たとえば、CPUをIntel第12世代Coreにしたり、AMDの最高性能な製品に替えたりすれば、レイテンシーが小さくなったりしますか?
大道:実はCPUを変えても正直なところ、ほとんど変わりません。本質的なアルゴリズムを変えないとレイテンシーは大きく変わらないのです。UR22Cは入出力のレイテンシーが小さく、同クラスの他社製品と比較してもほぼ最速の性能だったため、このモデルを使いました。
難しいことに、品質を上げるにはただレイテンシーを小さくすればいいわけでもないのです。カラオケという特殊な空間においては、莫大なノイズの中で、少し先の音を見ながら、今のが人間の声なのか、別の音なのかを判別しながら、予測精度を高めているのです。
――言われてみれば、かなりトンでもないことが行なわれているわけですね。マイクには様々な音が入り込んでいるのに、人間の歌声だけが変換されているわけですからね。
大道:そうなのです。これが気にならないくらいに動作しているというのが理想でもあるのです。マイクからは人の歌声だけでなく、音楽やさまざまなノイズが入ってくるわけですが、この中の人間の声だけを取り出して、再合成しなくてはなりません。
たとえば「カツッ」という音が、カラオケによるものなのか、机を叩いた音なのか、声によるものなのか、その音だけから判別するのは困難です。そこである程度、先まで見ながら、AIが判断しているのです。そのための時間としてもバッファ=レイテンシーが必要となのです。
才野:なかなか完璧というところには到達できません。現状でも、やはり気になるところはありますが、みなさんが使う上ではあまり気にならないレベルまで来ているのではないかと思っています。
研究開発の初期段階では、静かな環境だと上手く変換できるが、音の回り込みが多いと変換精度が落ちていましたので、その修正には大変苦労しました。ノイズというか、オケの音や、外からの音がある状態で、声の特徴を取り出すようにDNNをトレーニングしていきました。
この合成においては、過去の履歴を見ながら音を作っていくのですが、前の音とうまくつながるようにしつつ“持田さんらしく”していくのです。一瞬のタイミングだけが持田さんっぽいのではなく、“歌の流れが持田さんっぽくなる”のが重要な点です。つまり「あっ」と言い出す瞬間だけじゃなく、流れとして、歌い方として、持田さんっぽい雰囲気になるようにしています。
大反響の誰でも持田なりきりマイク。もしかしたら第二弾もあるかも??
――コントローラーはどのような役割をしているのですか?
倉光:わかりやすいように大きくしていますが、非常にシンプルです。この大きな赤いボタンを押すことで、オクターブ切り替えが可能になっています。そのまま歌うと同じピッチで出力されるわけですが、男性の声で入力する場合、1オクターブ上げられるようになっています。
それから、フロントにある左側のノブはボリュームで、右側がエコーです。先ほどの話通り、カラオケの音と、なりきりマイクの音は最後でミックスしているので、カラオケ内蔵のリバーブをボーカルにかけることができません。
そこでPC側で処理し、そのかけ具合をこのコントローラーで調整するわけです。サイズは大きいですが、中は単純なリモコンで、USB経由でPCと接続されています。初めての方でもすぐに分かるよう、このようなデザインにしました。
――より上手に“持田さんになりきる”には、どのように歌うのがいいですか?
大道:どのような歌声を入れても、可能な限り、持田さんの歌い方に近づけようとAIが頑張ってくれます。ただ、歌う方が持田さんっぽく寄せれば寄せるほど、本人っぽくなっていきます。歌に比べ少しもごもごしますが、持田さんの声でしゃべることもできます。しゃべりでも「みんなー、元気かーい!」みたいな、歌っぽいもののほうが、より持田さんっぽくなると思います。
――カラオケ店での展開は10月11日で終了してしまいますが、今後はどのような展開を考えているのでしょうか? 研究開発をさらに進めていくのでしょうか?
倉光:このような大反響になるとは予想以上でした。正直、この後どうしよう……と思っているところです(笑)。
当初は「カラオケって、1つの例として使えるよね」というアイデアから、動き始めたプロジェクトでしたが、多くの方々に面白がってもらえたので、次の展開もぜひ考えていきたいですね。
SNSを見ていると、「今度は〇〇の声がほしい」とか「〇〇の声のなりきりマイクを作ってください」といったコメントを見かけますので、こうしたご意見も参考にしつつ検討していきたいと思います。
才野:あくまで個人的な見解ですが、近年、歌声合成が非常に盛り上がってきていると感じています。AIがきっかけとなり、少し前だったら絶対にできなかったことがどんどん実現できるようになっている。技術が発展している一方、どのように楽しもうかとアンテナを張っている方も増えてきているので、このジャンルはいよいよ面白くなってきたなと。業界全体で、変換や合成などのテクノロジーが盛り上がれば、さらに、面白いことが実現できるようになってくるはずです。この世界に少しでも貢献していければ嬉しいですね。
大道:歌声合成は本当に面白くなってきましたし、私たちの技術もまだまだ発展させていきます。ヤマハとしては、話し声よりも“歌声”に注力していきたい。歌って楽しく、聴いている方も嬉しく楽しく、感動する……そんな世界、技術に進化させていきたいですね。