ニュース

自分の声を50万円で合成音声に。声色や抑揚も再現してテキスト読み上げ

野澤佳悟

2020年9月8日 19:00

エイベックス子会社のコエステは、40年以上にわたる研究開発により培われた音声合成技術をもとに、収録した音源から個人の声色や喋り方などの特徴を学習し、いつでもテキストなどから音声出力できるサービス「デジタルボイス・プレミアム」を9月8日より提供開始する。価格は50万円。

自分の声をさまざまな分野で広く活用したい、もしくは病気などの事由で今の声を残しておきたいと考える個人に向けたサービス。エイベックスのスタジオで収録した音声からその特徴を抽出した声の分身＝「コエ」を作成しておくことで、テキストを入力するだけでその人の声色や喋り方を再現した合成音声をいつでも生成できるようになる。

収録スタジオ

活用できるシーン例では、たとえば忙しい経営者に代わって本人不在の場でも広く講演やプレゼンテーションを行なったり、創業者の「コエ」で何代にもわたって従業員に新しいメッセージを届けたりできるようになるとしている。

また自身の葬儀や大切な人の冠婚葬祭などで、生前の「コエ」でメッセージを送ることや、もし病気や怪我などで声を失っても、自身の「コエ」でリアルタイムにコミュニケーションを取り続けることなどが可能になる。

活用シーン例

音声合成は、人間の音声を人工的に作り出す音声情報処理の一分野で、昨今IoTの普及などで音声インタフェース(Voice UI)の重要性が高まり、スマートスピーカーの音声や動画のナレーションなど、活用される場が急速に広がっている。

「コエステーション」では、収録音声の音色や抑揚、リズムなどの特徴を合成音声に最適に反映する技術や、統計的な学習に基づく滑らかなパラメーターを生成するコア技術により、人間に近い自然な発話が可能で、その再現性の高さが特徴としている。

コエステは今後、SNSメッセージを送信者本人の「コエ」で送ったり、スマートスピーカーの音声を身近な人の「コエ」で出したりなど、各種サービス企業との連携実現を目指す。