藤本健のDigital Audio Laboratory

第678回:機械と心の通った対話が実現? ヤマハの自然応答技術「HEARTalk」が目指すもの

第678回:機械と心の通った対話が実現? ヤマハの自然応答技術「HEARTalk」が目指すもの

 iPhoneなどのSiriに代表される対話型システムは、音声合成の性能も非常に向上してきているため、とっても流暢な日本語を話してくれるけれど、実際に会話をしてみると、すぐに相手が機械であることは分かってしまう。1語1語、1文1文にはちゃんとイントネーションがあるけれど、なんとなく棒読みに聞こえてしまうというか、感情が感じられないからだ。そうした中「自然で心が感じられる音声対話システムの構築を支援する新技術」とする自然応答技術「HEARTalk」というものがヤマハから発表された。

HEARTalk

 このHEARTalkを利用し、フュートレックの音声認識技術「vGate」や音声対話技術「vGate Talk2Me」、さらにNTTアイティの音声合成システム「FutureVoice Crayon」を組み合わせた3社による共同研究に着手したことも発表された。しかし、「自然で心が感じられる音声対話システム」とはどういうことなのか、そもそもなぜヤマハでそんな新技術が生まれたのだろうか? 先日、記者発表会に参加し、その音声対話のデモなども見てきた。

会話は「メロディ」で構成されている

 単にテキストを読み上げるだけであれば、「VOICEROID」などの音声合成ソフトを使うことで、コンピュータはかなりリアルな声でしゃべることが可能であり、ちょっと聴いただけでは人間がしゃべっているものと思うほどだ。ところが、Siriにしてもカーナビにしても、対話型になると、相手が機械であることがすぐに分かってしまう。そうした問題を解決しようというのが、今回ヤマハが発表した自然応答技術、HEARTalkなのだ。

 通常、人間同士の会話では、話しかける人の発音の強弱、長短、音程の高低、間、そして抑揚などからなる「韻律」が存在する。その韻律に合わせる形で応答する人も同じように韻律を細かく変化させて話すことにより、自然で心の通い合う会話を成立させているという。それをコンピュータの応答・発音に応用させたのがHEARTalkというわけだ。このHEARTalkは「HEART+Talk」と「HEAR+Talk」のダブルミーニングからなる造語で、機械と心が通った対話を目指すという思いが込められているそうだ。

ヤマハの松原弘明氏

 そのHEARTalkはヤマハが約1年前からスタートした社内の新規事業アイディアの公募制度「バリューアンプリファイア」で生まれた、最初のサービス製品。そして、そのアイディアを応募したのが同社研究開発統括部 新規事業開発部 VAグループの松原弘明氏だ。松原氏によると「このアイディアというか、人の会話はある意味メロディで構成されていることに気づいたのは二十歳のころです。メロディに対してメロディで返す会話をしていると。私にとってヤマハは2社目なのですが、ヤマハに転職してから、飲みの席でそんな話をしていたら、とっても盛り上がって、ちょうどバリューアンプリファイアという制度があったので、応募することになりました」とのこと。

 前職の大手通信機器メーカーでは音声合成に携わってきた松原氏は、ヤマハに入ってからはeVocaloidを搭載した音源チップ、NSXを手掛けてきた中心人物でもあり、ジャズピアニストとしても活躍している。発表会においては、実際の会話として「だよね」~「うん」というやりとりを譜面表記するとともにキーボードを弾いてデモを披露するとともに、こうした捉え方がHEARTalkのベースとなっていることを説明していた。

会話のやり取りを譜面で表記
キーボードで演奏

 つまり、人が話しかける言葉を韻律として捉えた上で、それにマッチした韻律で応答すれば、心のこもった感じの会話が成り立つというわけなのだが、最初に実演されたのが“相づち”を打つシステム。人間がしゃべる言葉の意味はまったく捉えていないが、単に発音した音に対して「はい」という相づちを打つのだが、それを従来のシステムを使った場合と、HEARTalkを使った場合を比較したのが、以下のものだ。

【HEARTalkを使った相づち音声の比較デモ】
aizuchi.mp3(1.03MB)

 確かに、この応答を見ると、まったく別モノのように思えるし、HEARTalkを使うことで「機械が応答している」感じがなくなり、人間っぽくなる。実は、この相づちを打つシステムはすでにほぼ完成しており、ソフトウェア版とハードウェア版の2種類が存在する。実際、会場にはハードウェア版のプロトタイプ機材も持ち込まれており、発表会終了後にその動作を見せてもらった。写真を見ても分かるとおり、名刺ボックスサイズのものにマイク搭載の基板とスピーカー、バッテリーが搭載されたシンプルなもの。これに話しかけると相づちを打ってくれるのだ。

相づちを打つシステムのハードウェア版プロトタイプ
相づち音声の例

 これもNSXのような専用チップになっているのかと思ったが、実は汎用のマイコンを使っているので、実質的にはハードウェアというよりもソフトウェアである、とのこと。また、これは「はい」と答えるものであり、音程的に12半音=1オクターブ分のサンプリング音を再生しているだけなのだとか。つまり、「はい」と言うスピード自体は常に一定だけれど、発音するまでの間とその音程が違うだけで、これだけ表情豊かになる、ということなのだ。

 このプロトタイプでは基板上にスイッチやマイクなども搭載していたので、やや大きいものとなっていたが、今後出荷するのは2cm四方の小さな基板。これを組み込むだけで簡単に相づちシステムを作ることができるので、おもちゃとして、家電製品として、また老人ホームなどで活用する介護システムでも利用できるのでは? と話していた。

基板上にスイッチやマイクなども搭載
基板モジュール

3社が共同研究、年内商品化へ

 さて、このHEARTalkが本領を発揮するのは、さらに大きく発展させた対話システムだ。これは単に相づちを打つだけでなく、まず人が発する言葉を音声認識によって理解するとともに、その内容に対する回答を作成するとともに、音声合成システム(TTS=Text to Speech)を用いて返事をする際、その返事に韻律を加えるというものだ。

返事のテキストに韻律を加えて音声として出す

 前述の通り、この対話システムはヤマハのほかにフュートレック、NTTアイティの三社共同での研究を行なっているとのこと。松原氏によるとおよそ1年前にフュートレックに声をかけたところ、その日にOKをもらい、フュートレックからの紹介でNTTアイティを紹介してもらい、三社で共同研究を行なうことになった、とのこと。

 先ほどと同様、従来の対話システムとHEARTalkを用いた対話システムの比較デモが行なわれたので、それを聴いてほしい。

【HEARTalkでの対話システムの比較デモ音声】
taiwa.mp3(1.07MB)

人間とHEARTalkが対話

 カーナビでの対話という感じものものだが、前半の単調なものと比較し、後半のHEARTalkを使ったものだと、だいぶ人間っぽくなる。といっても、やはりまだ機械っぽさは残るし、ぎこちなさも感じるが、それでも大きな進歩があるように感じられる。まだ研究段階とのことだが、年内の商品化を目指すということなので、まずスタート時点では、こんなレベルということなのかもしれない。

 ちなみに三社の役割についてみてみると、フュートレックはATR(国際電気通信基礎技術研究所)、NICT(国立研究開発法人情報通信研究機構)との共同研究・成果活用による高水準の音声認識エンジンを持っていることから、対話システム部分を、NTTアイティはNTT研究所で研究開発された高精度な音声認識および高品位な音声合成製品を手掛けていることから主に音声合成を担当し、ヤマハが韻律解析と、返答に対する韻律付加というHEARTalk部分を担当するという形になっている。

フュートレックの藤木英幸社長

 発表会で挨拶に立ったフュートレックの代表取締役社長・藤木英幸氏は「当社では対話型システムに長年取り組んできましたが、これまでは正確に認識し、正しく応答することだけを頑張ってきました。答えさえ正しければOKという考え方であり、答えているのが機械なので、機械っぽくてもそこは仕方ないと思っていました。ただ、どうすれば、より人間っぽくなるのかという思いも持っていたことは事実です。これまで韻律といったことはまったく考慮していませんでしたが、我々が望んでいたものは、まさにこれだったのです。ある意味、今までの対話型システムを根底から覆すもの」と語る。

NTTアイティの長谷雅彦社長

 一方、NTTアイティの代表取締役社長、長谷雅彦氏は「当社はNTTの研究所の成果をビジネスにしていく会社で、音声合成については、かなり昔から取り組んでいました。最近では対話型システムが重要であるというのは、誰もが持つ共通認識ではありますが、そうした中でHEARTalkを紹介いただき、『なるほど、そういうことだったのか! 』という思いを持ちました。シンプルでフレンドリーな技術であり、これを取り入れることで、このビジネスはまだまだ大きな広がりを見せるはず、と確信を持ちました。コールセンターでの利用やロボットへの応用など、さまざまな活用法が考えられそうなので、今後三社で発展させていきたい」と話す。

 現状において、HEARTalkは、あくまでも韻律を捉えているだけであり、意味をくみ取っているわけではない、とのこと。ただ、それでも十分に役割を果たすし、ほとんどの場合、これで事足りる、という。確かに、すごいハイテンションで「明日、葬式なんですよ! 」と言えば、HEARTalkのシステムでは「そうですか! 」とハイテンションで答えてしまうが、実際そうしたケースほまずないので問題にならないのだとか。

VOCALOIDとの関連は?

 今後の展開でもう一つ気になるのは、他言語への展開が可能なのか、という点だ。これについて松原氏は「HEARTalkが持つ韻律は日本語を前提として、他の言語へ対応しているわけではありません。また、現在のまま英語や中国語などに持っていってもうまくいかないケースが多くなりますが、中には言語に依存しない部分もあります。実はそこは言語どころか、人間以外にも通じる部分であったりもします。もちろん、犬の対話システムを作っても仕方ないわけですが、内容によって、いろいろなパターンがあるのです。まずは日本語でのシステムに集中していきます」と話していた。

 ここで、もう一つ気になるのは、HEARTalkはヤマハが開発したシステムであるということから、VOCALOIDの技術を使っているのではないか、という点。これについては明確に「使っていません」ということだった。ただ、VOCALOIDで自然に歌わせるために抑揚をつけるために用いたノウハウなどは活用している、とのことだ。また、VOCALOIDのように、さまざまなキャラクタでの声を出す製品を作るというわけでもないようだ。ヤマハが担当しているのは、あくまでもTTSに韻律を与えるという技術であり、この三社の取り組みにおいて、音声合成自体はNTTアイティが担当しているからである。

VOCALOIDの父・剣持秀紀氏

 では、VOCALOIDとまったく関係ないのかというと、そうでもないように思えた。というのも、この発表会に立ち会っていたヤマハの面々がみんなVOCALOID関連の人たちだったからだ。まず発表会の冒頭で挨拶に立ったのは“VOCALOIDの父”である剣持秀紀氏。現在はVOCALOID関連の部署は離れており、バリューアンプリファイアを推進する部署である研究開発統括部・新規事業開発部の部長という立場で、今回の発表会での責任者だ。

 また、現在VOCALOIDの技術トップである久湊祐司氏も同席していたほか、相づちシステムのデモを行なっていたのはeVocaloid開発も担当している嘉山啓氏だ。そして久湊氏、嘉山氏は剣持氏とともにVOCALOID1を開発したゴールデントリオ。彼らが勢ぞろいしての発表会なのだから、HEARTalkがVOCALOIDと無関係なわけがない。とはいえ、技術や特許という点からすれば、VOCALOIDとは直接関係のないものなのだろう。でも、こうした面々が関わって作り出したHEARTalkは、きっとVOCALOIDと同じように大ヒットするシステムに発展するのではないだろうか?

藤本健

 リクルートに15年勤務した後、2004年に有限会社フラクタル・デザインを設立。リクルート在籍時代からMIDI、オーディオ、レコーディング関連の記事を中心に執筆している。以前にはシーケンスソフトの開発やMIDIインターフェイス、パソコン用音源の開発に携わったこともあるため、現在でも、システム周りの知識は深い。  著書に「コンプリートDTMガイドブック」(リットーミュージック)、「できる初音ミク&鏡音リン・レン 」(インプレスジャパン)、「MASTER OF SONAR」(BNN新社)などがある。またブログ型ニュースサイトDTMステーションを運営するほか、All AboutではDTM・デジタルレコーディング担当ガイドも務めている。EPUBマガジン「MAGon」で、「藤本健のDigital Audio Laboratory's Journal」を配信中。Twitterは@kenfujimoto