ニュース

NHK、より自然に話す「第2世代音声合成システム」。11月に本使用

システムの概要図
NHK放送技術研究所ホームページより

NHK放送技術研究所が開発した「第2世代音声合成システム」が、17日放送の番組で初めて放送に利用された。第2世代音声合成システムは、漢字とかな文字が入り交じった文章を「かな文字化」したうえで、文章の流れにあった「アクセントを付加して」入力できるAIだという。

このシステムは、「ニュースシブ5時」などに“出演中”の「ニュースのヨミ子」で積み重ねた音声合成の知見を発展させたもので、自然な発声を「簡単な操作」と「短時間で生成」できる技術を確立したとのこと。従来の方式では、漢字とかな文字が入り交じった文章を、そのまま入力データとしても、漢字に複数の読み方が存在するため、AIが正しく学習できないという課題があったという。

今回の開発では、漢字とかな文字が入り交じった文章から、かな文字と、アクセントや間などの情報を表す「韻律記号」を自動的に生成。これを「系列変換モデル」の入力データとすることで、大量のデータを効率的に学習させ、合成音声の品質向上を成功させた。

かな文字と韻律記号を簡単に編集できるユーザーインターフェースや、AIの口調をニュース調や会話調に切り替えられる技術も開発され、さまざまな番組の演出要件にも対応できるようになったとのこと。

「第2世代音声合成システム」を初めて使った放送は、17日に放送されたBS1・ワールドニュース特集「新型コロナに揺れた1週間」で、番組冒頭のVTRで合成音声が使用された。今後はワールドニュース特集での先行使用を続けた上で、11月7日にスタートするBS1の新番組「週刊ワールドニュース」で本使用を開始するという。

NHKは「今後も、より自然で使いやすい音声合成を実現する研究を進めます」としている。