ニュース

バーチャルシンガー×AIで「歌声は人と区別できない時代へ」

庄司亮一

2018年12月14日 13:33

テクノスピーチと名古屋工業大学国際音声言語技術研究所は14日、人間の声質やクセ、歌い方を高精度に再現できる歌声合成技術を共同開発したと発表。歌声データベース(バーチャルシンガー)の「さとうささら」、「IA」を使い、日本語/英語/中国語で歌わせた合成音声サンプルを、テクノスピーチのWebサイト上で公開している。

さとうささら(左)とIA(右)

テクノスピーチと名古屋工業大学は、共同で音声合成・歌声合成技術の研究・開発に取り組んでおり、これまでカラオケの「JOYSOUND」や音声創作ソフトウェア「CeVIO Creative Studio」などで、同技術の導入を進めてきた。

新たに開発した技術では、特定の歌唱者の約2時間の歌声データベースに対して、深層学習などのAI技術を適用。歌唱者の声質やクセ、歌い方を学習させたことにより、任意の歌詞付き楽譜を入力するだけで高品質な歌声を合成できる。テクノスピーチは「バーチャルシンガーの歌声は人と区別できない時代になる」としている。

公開している音声サンプルは、歌声データベースのさとうささら、IAを用いて、人の手で調整していないベタ打ちの歌詞付き楽譜を入力し、日本語/英語/中国語で歌わせたもの。新技術を用いたサンプル曲として音楽をミックスしたバージョンと歌声のみのアカペラ版を用意し、現行技術で作られたアカペラ版と比較試聴できる。

テクノスピーチのWebサイト上で公開している音声サンプル

テクノスピーチではこの新技術を、アーティスト(故人を含む)の歌声の再現や、楽曲作品制作、ゲーム開発への応用、バーチャルYouTuber(VTuber)による配信・イベントなど、エンタメや教育、医療を含む様々な分野に活かすことを目指す。

今回の研究成果は、’19年3月開催の日本音響学会 2019年春季研究発表会で発表する予定。