トピック
音声合成から新しい文化が生まれる? 東芝「コエステーション」が見据える“声の未来”
2017年9月14日 08:10
「声を使ってもらいたい人と使いたい人をつなぐ」サービスを実現するという、音声合成技術を活用したプラットフォーム「コエステーション」を東芝デジタルソリューションズが発表した。現在はβ版で、'17年中の事業化を目指している。
声優やタレントなどのプロのほか、一般ユーザーも対象としているとのことだが、声を「使いたい人」と「使ってもらいたい人」とはどんな人を指しており、これを活用することで、具体的にどのようなサービスが生まれるのだろうか? 同事業の中心となっているRECAIUS事業推進室の担当者に、コエステーションの特徴と、未来にどんな世界を見据えているのか、東芝デジタルソリューションズRECAIUS事業推進室 コエステーション事業プロジェクトリーダーの金子祐紀氏、商品企画担当の平林剛氏と鈴木優氏に話を聞いた。
どこにもいない誰かの声ではなく、どこかの誰かの声を合成する
――「コエステーション」が他の音声合成技術と何が異なるのか、サービスのプラットフォームであるという部分も含めて改めて教えてください。
金子氏(以下敬称略):コエステーションは、当社が運営するコミュニケーションAIサービス「リカイアス(RECAIUS)」の一部です。
リカイアスは、当社の研究所で50年以上前から研究し続けてきた、画像認識や音声認識、音声合成、意図理解、機械翻訳などの、メディアインテリジェンス技術を集大成してコミュニケーションに役立てるサービスです。
人の喋っている様子をセンシングしてその人の意図を理解したり、状況を判断して適切なアクションやアウトプットにつなげていきます。その音声合成の部分で使われている技術を活用したのがコエステーションです。
ちなみにリカイアスという名称は、「理解」と「US」をつなげた意味と、「Recognize with AI+us」の2つの意味を持っています。
――Recognizeは認める、認知するなどの意味ですから、我々人間を認知、理解するということですね。
金子:はい。コエステーションは、任意のテキストを音声で読み上げることを可能とする「Text to Speech」、TTSと略される音声合成技術を用いています。例えば「昨日、おさかな市場に行きました」というテキストを読み上げる場合、まずは、言語辞書を用いてテキスト解析を行ない、漢字の読みやアクセント位置などを推定し、言語情報を生成します。
次に、この言語情報を入力として、声の高さの変化であるイントネーションやリズムといった韻律情報を生成します。そして、この韻律情報に従って音声を合成することで、波形を持った音声データとなり、再生すると人が喋っているように聞こえるわけです。
音声合成の世界では、韻律辞書や音声素片辞書といった専門用語で呼ばれる声の特徴を保持する辞書がありますが、コエステーションではこれを「声の分身」としてカタカナで「コエ」と表現しています。
――コエステーションの特徴や強みはどういったところにあるのでしょうか。
平林:まずは抑揚や音質などの特定の人物の声の特徴を短時間の録音音声から高速学習できる点です。次に、その学習した特定の人物の声で任意のテキストから合成音声が生成可能です。例えば私の声で喋らせることもできます。
それから、アジア、北米、欧州など、11言語に対応しています。
――ユーザーが自分の声を録音して、それを元に喋らせるということですか?
金子:はい。一般向けにはスマートフォン用のアプリを提供し、自分の声で例文を読み上げて録音するだけで自分の声の分身「コエ」が作られ、それを元に自由に喋らせるようにします。これは無料で提供します。
まずは例文を5分くらい読み上げると「レベル1」の辞書ができます。もっとクオリティを上げたい場合は、しゃべればしゃべるほど“育てられる”形にしていこうと思っています。
ただこれだけだと、合成して読ませるより自分で喋った方が早いですから、自分の「コエ」を友人に使ってもらったり、友人の「コエ」を使わせてもらったりできるようにして、楽しめるようにします。もちろん、自分の声が知らないところで勝手に使われないようにもします。
「恋人の声」で目覚ましや毎日のスケジュールの読み上げをしてもらったり、あるいは「孫の声」でニュース記事を読み上げるといったことも可能になるでしょう。
業務向けでは、カーナビの音声や、館内放送などの需要を見込んでいます。こちらはプロの声優やタレントに依頼してクオリティの高い「コエ」を作り、利用料金に応じて使ってもらう形になると思います。
――ひとくちに合成音声と言っても、同じ声ではなく、いろんな人の声になるということですね。
平林:そうです。コエステーションでは、合成音声をいかに自然な発話にするかという考え方ではなく、いかに多様な話者の音声を合成するかという少し違った視点でのアプローチになっています。このアプローチを支えるために、大きく3つの技術を開発しました。
1つめは「感情表現」です。喜び、怒り、悲しみなどのモデルを持ち、誰の声でもパラメータ調整で感情表現できます。
同じ声で同じセリフを喋っても、喋り方で印象が変わりますよね。例えば「右からトラックが割り込みます。ご注意ください」というセリフをゆっくり発声した場合と、少し早口に強い口調で発声した場合では、切迫感がまったく違ったものになります。
――笑い声にしたり、泣きそうな声にしたり、怒鳴り声にもできると。これは面白いですね。
平林:2つめは「似声(ニゴエ)」と呼ばれる技術で、先程から話している特定の人の声を録音して「コエ」を作るための技術です。これは、対象の人の録音音声から、その声の特徴を効率良く抽出して、ベースで持っている平均的な声のモデルを、その人の特徴に寄せることで作り出しています。
3つめは、「声デザイン」です。これは、声そのものをパラメータでいじってしまう技術。明るい声、硬い声、流暢な声、明瞭な声、年齢を上下したり、男女の声を入れ替えたりもできます。
――実際に作った声がどんなものか、サンプルを作ってもらうことはできますか?
金子:もちろんです。目覚ましを作りましょう。ぜひ使ってください。
【音声サンプル】
女性の声で、優しく起こしてくれる目覚ましのイメージ
mezamasi.wav(0.32MB)
平林:具体的なパラメータ調整の様子はYouTubeの動画で見られるので、ぜひご覧ください。
「声を盛る」新しい文化が生まれる?
――声デザインを利用すると、まったく別の人の声になりませんか?
金子:パラメータをどの程度調整するかによりますが、大きく変えれば、確かに元の声が誰の声か分からないくらい違う声にできますね。
当社としては、コエステーションを通して、声の新しい文化を作っていきたいと考えています。例えば、SNSで自撮りの写真を共有する際に女子高生などは、だいたいちょっと加工して可愛くしてからアップしますよね。
――目を大きくしたり、肌をつるっと血色良くしたりですね。
金子:それと同じように、自分の声のパラメータを調整して、いわば「声を盛って」アップする文化も有り得ると考えています。その場合、誰だか分からなくなるほど盛ってしまっては意味がないですから、自分の声だと分かってもらえる範囲で上手に整える、そういうテクニックを磨く人も現れると思っています。
――「声を盛る」のは、新しいですね。他にはどんな展開が考えられますか。
鈴木:コエステーションはあくまでプラットフォームです。いわば声のテーマパークみたいなもので、その中のアトラクションは色々なサービスプロバイダとコラボレーションして、声を利用したサービスを展開してもらおうと考えています。
先程カーナビや館内放送、あるいはニュースの読み上げなどへの利用と触れましたが、このあたりは当社が直接サービスするのではなく、サービスプロバイダが当社の技術を利用して展開するものになるという考え方です。
金子:ビジネスアカウント向けには大きく3つのツールを提供していきます。1つめは音声合成コンテンツを制作するための編集ツール「音声合成エディタ」です。
2つめは「Web API」。当社のサーバーに用意して、ユーザーが読み上げさせたいテキストを音声データに変換して返すAPIです。リアルタイムで音声合成したい場合に使うものですね。
3つめは「組み込みのミドルウェア」になります。これは、Web APIと似ていますが当社のサーバーに置くのではなく、端末側に持たせるものです。カーナビなど、ネットワーク環境が悪くても適切な音声ガイドが必要な端末にはこのようなミドルウェアが必要でしょう。
――ビジネスアカウントで、例えばリアルタイムの翻訳エンジンがサービスプロバイダになれば、その人の声で外国語を喋るといったサービスも可能になるわけですね。
金子:そうですね。すでにコエステーションは11言語に対応しているので、日本語で作った「コエ」で日本語を読み上げる、英語で作った「コエ」で英語を読み上げる……ということができます。
さらに将来的には、日本語で作った「コエ」で英語や中国語などを読み上げさせたり、ドイツ語で作った「コエ」で日本語やフランス語を読み上げさせたりすることができるようになる可能性も高いと思っています。これが実現すると、私自身は日本語しか話せませんが、翻訳技術と組み合わせることで、私の「コエ」で英語やドイツ語を話せるようになります。音声合成技術が言語の壁を越え、もっと大きな価値が生まれると思います。
――それが実現したら、洋画や海外ドラマの俳優がその人の声で日本語を喋ってくれると面白そうです。現地の声優をアテンドして吹き替え収録しなくてもよくなりますね。でも、そう考えると、声優の仕事を奪うことにはなりませんか?
平林:そこはむしろ新しい需要を作る作用のほうが遥かに大きいと考えています。映像に例えるとロケとCGがある感覚で、CGのシーンが増えたからといって俳優が不要かというとそんなことはないですよね。モデルになる俳優がいて、クレジットも出るわけで、今まで表現できなかった映像に俳優が入り込む形になります。コエステーションも声優の活躍の場を広げることになると考えています。
金子:例えば「ゲームの中のキャラクターにプレイヤーの名前を呼ばせたい」とき、事前に収録しようとしても、人の名前のパターンは多すぎます。そこで、コエステーションの技術を利用できます。そういった「合成音声じゃないとできないから使う」用途もあります。
平林:ニュースを24時間読み上げ続けるサービスなど、生声では難しいシチュエーションで、状況に応じたより丁寧な音声サービスが実現できると思います。
金子:コエステーションでは、すべての「コエ」はIDで管理します。他人の「コエ」は勝手に利用できず、申請と許可が必要な仕組みになっています。特にプロの声優の声は、名前と紐付いて利用できることが声優サイドのメリットですから、管理はきっちり行います。公序良俗に反したり、反社会的な利用目的の場合は、声優事務所サイドで申請が来ても許可しない選択ができるようにします。
――技術的には特定の声優と似た「コエ」を作って利用することも可能ですよね。
平林:はい。しかしそれは、いわゆるモノマネの世界と同じことです。誰かの声をそっくり真似る人がいても、真似するなとは言えないですよね。声真似できる人が「コエ」を登録してしまえば同じことです。
コエステーションでは、「コエ」をIDで管理するので、本人の「コエ」なのか誰かの真似した「コエ」なのか、技術的な追跡は可能です。ただ、似ているからという理由で規制はできません。
膨らむ遊び心、声を使う新しい文化が生まれる土壌
――SNSのチャット画面を読み上げられると面白そうですね。
金子:コエステーションのユーザー同士であれば、話者の声を使って読み上げるので、誰が何を発言したか、文章を目で追わなくても分かります。
――テキストにできない発言の扱いはどうなるのでしょうか。
平林:絵文字とかですね。例えばニコニコマークだったら、それを「ニコニコ」と読ませることもできますし、それともそのニコニコマークが付いている前の文章は喜びパラメータを上げて、嬉しそうな声で読み上げるといったこともできます。
――ネットやSNSだとスラングで、「w(ダブリュー)」を使いますよね。「www」など。ダブリューだけしかないフキダシなどもありますが、どう読ませるのでしょうか。
平林:普通に読ませると「ダブリューダブリューダブリュー」って感じで読んでしまいますね(笑)
金子:真面目に回答すると、ニコニコマークや「w」は、サービスプロバイダ側のポリシー次第になります。ダブリューを本当にダブリューと読ませたいのか、あるいは「わら」って読ませたいのか、単純にその前の文章を喜びパラメータが上った状態で喋らせたいのか、サービスを提供する側の判断次第です。
平林:絵文字やダブリューだけでなく、全く新しい「こう入れたら音声でこう出て面白いから、このようにつなげて読ませちゃおう」みたいな遊びもできると考えています。テキストだと意味不明に見える文字列や記号で、声にすると「なんだ、こう言ってたんだ」と伝わるのが楽しい。あとは早口言葉の凄く難しいものも、音声合成は絶対噛まないで読み上げます(笑)。
金子:こうした遊び心が膨らませられるところは、コエステが実現する“声の新しい文化”だと思うんです。今までなかなか声の文化というものがなかったので。
鈴木:どんな文字列を読み上げさせたら、音の響きが面白くなるかといった遊びが流行るといいなと思っています。
コエステーションがどんどん活用されれば、近い将来、好きなタレントや恋人の声で毎朝起こしてもらったり、スケジュールを読み上げてもらう、あるいは夜間のドライブのときだけナビの声を目の醒める声に替えたり、子供や孫の声でニュースやメールを読んでもらう……。そんな世界も夢ではないようだ。
印象的だったのは「コエステーションは声のテーマパーク」という言葉。声を使った新しい文化に興味がある企業が参入すれば、その一つ一つがアトラクションのような場になってくだろう。そして若い世代などが、これまで思いもよらなかった遊び方などを発見したら、SNSでまったく新しい楽しみ方もできるかもしれない。従来は文字で行なっていたコミュニケーションから、「コエ」を使った新しい文化が生まれる、そんな世界を早く見てみたい。