ニュース
ピカチュウが家のスマートスピーカーに来る? Googleアシスタント対応サービス拡大へ
2017年11月9日 19:02
Googleは、音声認識対応のGoogleアシスタントを通じて外部のサービスを利用する「Actions on Google」が、10月24日から日本語にも対応したことを発表。GoogleアシスタントやActions on Googleの現状に関する説明会を開催し、利用可能なサービスの一例として、ポケモンの「ピカチュウトーク」を紹介した。
Googleアシスタント用の開発プラットフォーム「Actions on Google」は、「Uber」のタクシーサービスとの連携など、既存の事業者が自社サービスやアプリをGoogleアシスタント対応にできるもの。AndroidスマートフォンやGoogleアシスタント対応スマートスピーカーで利用できる。
利用するために別途アプリのインストールは不要で、「OK Google(または、ねえ、Google),ピカチュウと話したい」などと声を掛けるだけで、目的のサービスを呼び出せる。
当初は英語のみだったが、10月のGoogle Home発表時に「日本向けのActions on Googleは今後、数週間程度で順次対応する」と案内しており、10月24日より日本語対応を開始。これにより、Google Home/Home Miniなどのスマートスピーカーと連携する国内サービスの拡大が見込まれる。なお、日本語以外にもドイツ語(de-DE)、 フランス語(fr-FR)、日本語(ja-JP)、韓国語(kr-KR)、カナダでの英語とフランス語(en-CA、fr-CA)も同時に対応している。
ピカチュウとおしゃべり、歌も披露する「ピカチュウトーク」など様々なサービス
今回紹介されたスマートスピーカー向け「ピカチュウトーク」は、株式会社ポケモンがActions on Googleのプラットフォームを活用して開発。挨拶など話しかけるとピカチュウが様々なリアクションで応えてくれるほか、ユーザーが誕生日だということを伝えると“ピカ”という言葉だけでHappy Birthday to Youを歌ってくれる。
ピカチュウが話す言葉は、現時点で100種類以上。反応のパターンは数百種類あるという。今後もアップデートによりリアクションのパターンを増やすことなどを検討中としている。
ポケモン 開発本部 プラットフォーム戦略室 ディレクターの新藤貴行氏は、「ポケモンという存在を通して、現実世界と仮想世界の両方を豊かにすること」という同社の目的と、「最新の技術とポケモンのキャラクターを使って新しいエンタメを生み出すこと」のために、スマートスピーカー活用が適しているとの判断から開発に至ったことを説明。
同社Pokémon GO推進室 プラットフォーム戦略室 マネジャー プロダクトエンジニアの小川慧氏によれば、最初の企画としては、何を話しかけても「ピカ」だけ返すという形だったが、面白法人カヤックや、「ポケモン言えるかな? 」など手掛けたプランナー・ライターの戸田昭吾氏との協力により、「誰でも気軽に遊べる」ことと、「言葉に奥行きを持たせること」の両方を可能にしたという。
「ピカチュウトーク」以外にも、歴史の年号をクイズ形式にした「日本史語呂合わせ」や、スピーカーから出る音の音階を当てるゲーム「絶対音感オーケストラ」などがActions on Googleで開発された。
1つのサービスで、スマートフォンなどのディスプレイを持つ機器向けと、スマートスピーカーなどディスプレイ無しの機器で異なる動作をさせることも可能。例えば、上記の「日本史語呂合わせ」では、スマホを使った場合のみ、画面上に正解のヒントが表示される。
Actions on Googleのアプリ例(一部)
Ameba
イカステージ
一分カウントダウン
おうむ返しくん
じゃんけんゲーム
外為どっとコム
SUUMO
食べログ
トクバイ
なみある?
日本史語呂合わせ
絶対音感オーケストラ
ピカチュウトーク
ベストティーチャー
ホットペッパーグルメ
MALLOW hair and spa
Yahoo! MAP
楽天レシピ
ロボ トリビア
合成音声はより自然な声に進化
Googleの製品開発本部長 徳生裕人氏は、Googleアシスタントの今後の姿について「スマートフォンやスマートスピーカーなどデバイスを問わず、家でも外でも車でもどこでも役立てるのが便利なアシスタント」との考えを示し、同社の強みについて「検索をベースにしたものが大事」とした上で、Web上のデータや、Googleが構築しているナレッジグラフ、同社が培ってきた音声認識や自然言語処理、それを支える機械学習などを総合することで、サービス強化を進める方針を強調した。
課題の一つとする音声合成についても、昨年に比べて自然になったことを紹介。Googleが買収したDeepMindの技術「WaveNet」では、ゼロから音声合成して文章を話す仕組みとして、従来の方式である声優などの声を大量に録音したデータを用いる「concatenative TTS」や、パラメータを決めて音を作る「parametric TTS」とは異なり、どんな言葉を入れてもニューラルネットワーク(人間の脳の神経回路を模倣したネットワーク)で処理して自然な合成音声を実現するという「convolutional neural network」を活用。
この方式の場合、従来はコンピュータの負荷が大きく、例えば「はじめまして」という言葉を合成するのに50秒ほどかかっていたが、DeepMindやGoogleのエンジニアによる改良の結果、0.05秒まで短縮したという。現在、Googleアシスタントの英語と日本語でこの方式が採用されており、両言語において、WaveNetでは他の方式よりも自然な合成音声を実現したという。
徳生氏は、進化する技術とその活用について「これまでは、検索(Google検索でピザ屋を探すことなど)で止まっていたが、ユーザーが探しているのは、その先にあるもの(実際にピザを注文するなど)。アシスタントの第1歩は、“情報を見つけてそれを返す”ところを超えて、少しでも多くの形で役立てること。それがホームオートメーションやメディア再生など、様々な形として表れている」とした。
なお、他社スマートスピーカーのユーザーから報告されている「ユーザーの声ではなくテレビからの音声を認識してテレビを消す」問題については、Googleアシスタントの現状では、同社がテレビCMなどで流す特定の言葉について、Google Home側で誤って反応しないようにあらかじめ設定しているという。