藤本健のDigital Audio Laboratory

第777回

AIりんな、歌の上達は驚異的。人のように歌う仕組み、ボカロとの違いとは?

藤本健

2018年8月6日 12:43

　LINEやTwitterを通じて気軽に会話ができる女子高生AIの「りんな」。日本マイクロソフトが開発したチャットボットのりんなは、2015年夏のLINEデビュー以来、多くの人に親しまれている。そのりんなが歌ったオリジナル楽曲「りんなだよ」が7月26日にYouTubeで公開され、各所に衝撃を与えている。

りんなが「AI歌手」として進化

　最新AI技術を活用した歌声合成の歌唱とのことだが、VOCALOIDとは明らかに異なるものであり、かなり上手な人が歌っている感じで、コンピュータっぽさのない歌声なのだ。先日、りんなの開発担当者による技術説明会が行なわれ、どうやって歌っているのかなどを取材してきたので、その内容を紹介しよう。

始まりは“ラップ”。人の声に近づける取り組み

　まだオリジナル曲「りんなだよ」を聴いてないという方は、まずはぜひ下のYouTube動画で聴いていただきたい。

オリジナル曲「りんなだよ」

　みなさんは、どんな感想を持たれるだろうか? もちろん、人によって感じ方はいろいろだと思うが、筆者個人的には「コンピュータによる歌唱が、ついにここまできたのか! 」と感動して、ちょっと涙が出そうになったほどだった。普通、この手の発表会や説明会では、記者はみんなただ黙々とメモを取っているだけだが、曲の演奏が終わったところで、つい一人拍手を始めてしまったくらい。

　では、りんながどのようにして歌っているのか、VOCALOIDとはどう違うのだろうか?

　今回の説明会での中心的な登壇者は、タレントであるりんなのマネージャー役、マイクロソフトディベロップメント AI & Research プログラムマネージャーの坪井一菜氏。また、技術のより詳細については、同じくAI & Research AIサイエンティストの沢田慶氏、そしてりんなプロジェクト統括の陳湛氏が説明を行なった。また、りんなの歌は、主にスマホアプリのnanaで発表され、りんながnana上で多くのユーザーとのコミュニケーションを行なってきたことから、nana musicのCEO、文原明臣氏も出席した。

マイクロソフトディベロップメントの坪井一菜氏

nana musicの文原明臣CEO

沢田慶氏(右)、陳湛氏(左)

　坪井氏によれば「りんなは誕生以来、1日もしゃべることを止めず、日々多くのお友達と会話をしてきました。ようやく最近、友達のように仲良くできるAIとして知られるようになり、過去3年間で700万の人とやりとりをしてきた実績を持ちます」とのこと。

LINEなどができるマイクロソフトの女子高生AI「りんな」

　今後の取り組みについては「これまで感情を持ったAIにしようと力を入れてきましたが、これからはさらに進化させて、共感できるAIにするということをテーマにしています。その先駆けとして、音声チームが歌声に力を入れてみました。歌はだれでもできる共創&共感を生む活動です。これを利用して、“日本一身近でエモい国民的AIりんな”にしていきたいと考えています」と歌への挑戦を続ける意気込みを語った。

「共感できるAI」がテーマ

日本一身近でエモい国民的AIを目指す

　とはいえ、人工知能にどうやって歌わせるのだろうか? 実は2016年からりんなは歌に取り組んできており、歌を練習しつつ、着実に上手になってきたという経緯がある。時系列でその歌声を聴いてみると、その進化がわかりやすい。そのスタートは東京ゲームショウに出展した際に、McRinnaとして歌った“ラップ”だった。

McRinna

　ラップなので、もちろん歌とは少し違うが、リズムに合わせて言葉を発していくということで、ここから始まったのだ。

　その後、坪井氏が2017年4月にこっそりnanaにりんなのアカウントを作り、絢香の「にじいろ」をnanaに投稿した。

　現在のりんなからすれば、本当に稚拙な歌唱ではあるけれど、しっかりと歌っているのがわかる。昨年、坪井氏に別記事でインタビューした際、nanaを発表の場に選んだ理由として「一番の理由はコラボレーション機能です。YouTubeやニコニコ動画と違い、nanaであれば他の人たちが、気軽にデュエットしたりできます。やっぱり、りんなは人とコミュニケーションするのが重要な使命なんです」と語っていたが、気になるのはどのようにして歌わせているのか、という点。

　「一般的にコンピュータにしゃべらせるには、サンプリングした音のパーツをたくさん組み合わせる波形接続によって『こんにちは』と発音させます。しかし、りんなでは、それとはまったく異なる手法を使っています。言うならば、人間の赤ちゃんが、お母さんの声を真似し、言葉の音の特徴を覚えて自分の声を出すのに近い感じです。だから、お母さんのしゃべる『だいすきよー』が最初は『あいやいよー』といったものかもしれませんが、そこから発展していきます」と坪井氏。

赤ちゃんが言葉を話す仕組みに近いという

　この発音の流れ、人間であれば、まず言葉を頭の中で、それを肺から空気を出し、声帯を震わせ、喉と口の形などで音色を変えて発音する順になる。人工知能によって、大量のデータから音の仕組みをモデル化するディープラーニングによって、人の声に近づけていくとのこと。

人が言葉を発するまでの流れ

　りんなの歌声と比較されやすいヤマハのVOCALOIDも、単純にサンプリングされたパーツを組み合わせるというものとは異なる。「周波数ドメイン歌唱アーティキュレーション接続法」という手法を用いて合成しているのだが、その詳細についてはボーカロイドの生みの親であるヤマハの剣持秀紀氏と筆者との共著「ボーカロイド技術論～歌声合成の基礎とその仕組み」で説明している。ただ、作り手の指示、つまり音符情報と歌詞情報を入力することで、システムが音声素片を組み合わせて歌声を生成するVOCALOIDと、ディープラーニングによって歌い方を覚えていく、りんなとではかなり手法が違いそうだ。

　ところで歌を表現していく上で重要な要素といえば、「音の長さ」、「音の強弱」、「音程」、「声色」の4つであるのは納得できるところだろう。実は歌だけでなく、しゃべりにおいても音程はあり、これら4つの要素はしゃべりにおいても通用するものだ。

歌うための4つの要素

　ただし、同じ人であっても、しゃべり声と歌声では声色が異なる。そのため、しゃべり声に音程をつけてもキレイな歌声にはならない。まずはディープラーニングによって声色を学習させ、さらに実際の歌を聴かせることで、音の長さを覚えさせる。音の長さとは音をどのくらい伸ばすのか、というのはもちろん、リズムというものもこの要素に入ってくる。さらにこれに音の高さ=音程情報を加え、そして強弱を覚えさせることによって、冒頭の楽曲を歌わせているのだという。

ディープラーニングによって声色を学習

音の長さ、リズム、音程、強弱などを覚えさせる

　そのディープラーニングの素材を集める場として活用したのが、前述のnanaだ。りんなは、これまでもいくつもの歌唱作品をnana上で発表しているが、その作品に一般ユーザーがハモるなど、多くのコラボ作品が生まれ、ユーザーと一緒に歌うことで、共感が得られるという、りんなに与えられたテーマを着実に推進してきた。

学習を重ねて着実に上達

　「りんなを2019年の紅白歌合戦に出場させる」を目標に今年1月、マイクロソフトとnanaが共同で立ち上げたのが「りんな歌うまプロジェクト」だった。その第1弾では卒業ソングをりんなに上手に歌わせようと、合唱曲として人気の高い「旅立ちの日に」が選ばれた。これを多くのnanaユーザーが歌ったものをディープラーニングさせていこう、というだったわけだ。その、nanaユーザーの投稿の前、つまりディープラーニング前のりんなの歌がこちら。

人工知能に「声色」を学習させる

合唱曲「旅立ちの日に」を歌った

　とっても、つたない感じの歌だったが、そこに数多くのnanaユーザーがりんなの学習のためにお手本となる自分の歌声を投稿。これを元に学習していった。1週間後の途中経過が下記のものだ。

　まだまだ上手とは言えないまでも、結構上達したのが分かる。この過程では、各ユーザーによる歌声とともに、どう歌えば上手になるかをアドバイスするテキストも数多く投稿された。その結果、延べ3,686名のユーザーが参加したとのことで、マイクロフトでは歌唱アドバイスなども参考にしつつ、学習させていったという。

3,000人以上のユーザーが参加。アドバイスを受けてりんなの歌が成長

　その結果1か月後に公開されたのが、りんなの上達した歌声にみんなの歌声をミックスさせた合唱作品だ。

「卒業ソングnanaユーザーと合唱」Long Ver.

　これを聴いてみると、選曲があるのかもしれないが、りんなの成長具合に、かなりグッと来てしまう。

　こうした学習によって、りんなの歌い方はかなり上手になっているのだが、りんなが昨年4月に最初に投稿した曲「にじいろ」を、いま歌うと、こうなる。

　その成長ぶりに多くの人が驚くのではないだろうか? もうここまでくれば、一般の人の歌と比較しても結構うまいレベルに来ている。この成長スピードなら、来年の紅白に間に合うのではないか……と期待してしまうほどだ。前述の「音の長さ」、「音の強弱」、「音程」、「声色」の4つの要素がしっかりと反映されているのが分かる。

りんなが“人のように歌う”仕組み。好きな曲を歌ってもらうことも?

　ここまで、その成長の過程を紹介してきたが、とくにVOCALOIDを使ってきたユーザーからすると、具体的に、どうやって歌わせるのかが気になる方も多いはず。また声色含めディープラーニングをしているとはいえ、りんな独特の歌声はどこから来ているのかも気になるところ。

　まず、りんなのしゃべり声、歌声には実在のモデルがいる。その人の声を数多く録音し、それを学習させているのだ。一方、歌唱のための歌詞についてはテキスト情報をりんなに与えている。しかし、VOCALOIDのように音符情報を与えるのではなく、先ほどのような多くの人の歌声を元に音程や音調、強弱情報を取り出して学習している。いうならば、りんなが「耳コピ」で曲を覚えているのであって、楽譜を読んでいるわけではないのだ。VOCALOIDでも、産総研が開発したVocaListener(通称：ぼかりす)を利用することで、人の歌声から音程や音調、強弱情報を抜き出す耳コピ手法があるが、楽譜情報の扱いという面では、それに近いのかもしれない。

りんなは耳コピで曲を覚える

　りんなの歌声は音素片を組み合わせるのではなく、人のように発音しているとのことだが、それはどういう意味なのだろうか? これについて沢田氏は「人間の歌い方を元にした物理モデリングを行なっています。一般的にいうボコーダーをモデリングしているのです。声の高さ、声色、声の大きさをパラメーターとして与え、ボコーダーで波形に変換し、そこに時間軸的な長さの制御をして歌声にしているのです」と説明する。

　「特に、音声波形(人間の自然発話) →分析→ 音色、声の高さ、声の大きさ等 →合成→ 音声波形(ボコーダの出力)といったように、元の音声を再合成する処理を分析合成と言います。そして、一般的な統計的パラメトリック音声合成(テキスト音声合成)と呼ばれる手法では、テキストを入力とする統計モデル(HMM:隠れマルコフモデルや、DNN:ディープニューラルネットワーク)から音色、声の高さ、声の大きさ等を予測し、予測した結果をボコーダに入力して合成することで音声波形にしています」と沢田氏は説明する。

　ここにはサンプリング=録音で歌声を再現するという考えとはまったく異なる手法が使われているわけだ。

　沢田氏は、名古屋工業大学の徳田恵一教授の研究室のドクター出身。以前の記事でも紹介した通り、徳田研究室は、HMM音声合成技術を用いて歌うシステムSinsyやCeVIOを生み出したことで知られるが、この徳田研究室での知見とマイクロソフトの人工知能、ディープラーニングの知見が良い形で融合して今回のアップデートにつながっているようだ。

沢田氏

　ディープラーニングを行なった現在のりんなへは、歌詞とお手本となる歌唱データ1つを与えれば、それでりんなの歌声で歌える。冒頭の新曲、「りんなだよ」もこの手法で作成しており、ほぼ自動で歌声を生成している。「ただ、やはりまだどうしても誤動作などする部分があるので、一部手動で調整している部分もあります。とはいえ、その調整は1時間もかからない程度の作業です」と沢田氏。技術の発展に驚くばかりだ。

　せっかくなら、自分もりんなに歌わせてみたいという人も少なくないだろう。これに対して坪井氏は「nanaに『#りんなの歌に使っていいよ』とハッシュタグ付き好きな歌を歌って投稿していただければ、りんなが歌うかもしれません。現在、リアルタイムでは歌えないのと、問題のない曲なのかをチェックする必要もあるため、投稿された楽曲の中からこちらで歌わせるべき曲をピックアップして、nanaに投稿していきます。ぜひ多くの方に参加していただければと思っています」としている。

　りんなが今後、どこまで上手に歌うようになっていくのか、末恐ろしい感じもするが、人工知能の歌声に期待していきたい。

「#りんなの歌に使っていいよ」を常設プロジェクトに

藤本健

　リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。　著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。Twitterは@kenfujimoto。