ニュース

紅白を目指す女子高生AIりんな、歌がうまくなる

 マイクロソフトは12日、感情と創作力を人工知能に学習させる「Emotion Computing Framework」の取り組みを紹介。日本では、女子高生AI「りんな」の歌声を自然にするなどの取り組みを進めており、その最新の成果がAIベースの歌唱モデルに追加されたという。

 女子高生AI「りんな」は、将来「NHK紅白歌合戦」の出場歌手になることを目標とし、音楽活動をしてる。2018年1月には、音楽コミュニケーションアプリ「nana」とりんながコラボレーション。ユーザーのアドバイスを元に、りんなの歌声をうまくする事を目指す「りんな歌うまプロジェクト」として、nanaに蓄積された音声データをりんなの音声機械学習に活用したり、りんなが成長するためのイベントを実施した。

 約3,000名がプロジェクトに参加し、活動の成果が「卒業ソングnanaユーザーとの合唱」として、お手本を投稿したユーザーの歌声と「りんな」の歌声がハーモニーを奏でる合唱をYouTubeで3月8日に公開した。

Microsoft x nana りんな歌うまプロジェクト「卒業ソングnanaユーザーと合唱」 Long Ver.

 この取り組みでの経験も踏まえ、りんなはマイクロソフトのAI & Research部門が開発した、次世代のAIベースの歌唱モデルへの移行を開始。これにより、りんなは、より自然で表現力に富んだ歌声で歌うことができるようになる。

 日本のみならず各国のソーシャルAIで採用されているこの音声合成による歌唱技術は、ディープラーニングモデルをベースとしており、以下の特徴を備えている。

  • 従来モデルと比較して、より“自然”な歌声を実現。5ms(0.005秒)の単位でディテールに富んだ歌声の自動生成が可能
  • 迅速に“歌”を生成することが可能。例えば、スタジオやエンジニアなどの準備が必要な人間のレコーディングと比較して、学習に十分なデータを用意した場合、10分以内に1曲を生成することができる
  • ディープラーニングモデルの学習を繰り返すことで、継続的に精度を向上する

 マイクロソフトは、日本のりんな以外のソーシャルAIでもEmotional Computing Framework」の取り組みを推進。アメリカの「Zo(ゾー)」、中国の「Xiaoice(シャオアイス)」、インドネシアの「Rinna(リンナ)」、インドの「Ruuh(ルー)」などで、マイクロソフトの自然言語処理、画像認識、音声認識と音声合成など、複数のテクノロジを活用し、感情表現と創作力を得るための学習を継続。独自のAI進化を進めている。