カデーニャ
技術のキモはマイク? メーカー視点で分析する「スマートスピーカー」
カデーニャ:https://kadenya.news/(協力:Cerevo)
2017年12月4日 08:00
ここ最近聞く機会が増えた「スマートスピーカー」という言葉。テレビのCMでもさまざまなスマートスピーカーが紹介され、ニュースでもスマートスピーカーに関する特集が多数組まれていますが、スマートスピーカーが登場したのは本当にごく最近のことです。
そもそもスマートスピーカーって何なの? どんな仕組みで動いているの? という素朴な疑問について、Cerevoで技術全体を統括しているCTOの松本健一さん、広報担当の甲斐祐樹さんとの気軽な雑談トークの中を通じて答えていただきました。
この記事は、株式会社Cerevo運営のオウンドメディア「カデーニャ」からの転載です(カデーニャで読む)
2017年のCESから始まった日本のスマートスピーカー
――今でこそClovaやGoogle Home、Amazon Echoといったスマートスピーカーの情報がメディアで飛び交っていますが、そもそも日本でスマートスピーカーが話題になり始めたのはいつなのでしょう?
甲斐:元々アメリカを中心とした海外では普及が進んでいたのですが、日本で大きな話題になったのは今年の「CES」(※毎年1月に米ラスベガスで開催される世界最大の家電見本市)でしょう。
700以上のAlexa対応製品が出展されていたことが会場でも話題になり、Cerevo代表の岩佐が「会場がAlexaだらけだった」と書いた個人ブログも、はてなブックマークが1,000を超えるほどアクセスを集めました。
・大手メディアが書かない、CES2017の実態(出展者目線) – キャズムを超えろ!
国内のメディアもそれまでは「へー、Alexaって海外で流行っているんだ」というレベルだったのが、CESの状況を見て「Alexaがどうやら凄いらしい」という温度感に変わった感があります。
製品としてもLINEが国内では一番乗りで「Clova WAVE」を発売し、続いてGoogle HomeとAmazon Echoが発売されたことで、2017年は日本におけるスマートスピーカー元年のような位置付けになりそうです。
――スマートスピーカーという言葉や定義についてはどうでしょう? 「AIスピーカー」と呼ばれたり、これらの製品を表現する言葉も定まっていない印象ですよね。
甲斐:そうですね。スマートスピーカーというと「話しかけると答えてくれる」というイメージが強いと思いますが、実はCerevoが開発している「1/8 タチコマ」も、話しかけると答えてくれるし、天気予報やスケジュールを教えてくれたり、アラームを設定するといった機能を搭載しているんです。
でも、1/8 タチコマはスマートスピーカーとは言わないですよね。話しかけると答えてくれるだけでスマートスピーカーと呼んでしまうと、シャープのロボホンもソフトバンクのPepperもスマートスピーカー、ということになってしまう。
それを踏まえた上で「スマートスピーカーとは何か」と考えるなら、最も普及しているであろう“スマートと呼ばれる”デバイスである「スマートフォン」を考えてみるといいかもしれません。スマートフォンは、さまざまなアプリを自由に追加して機能を拡充できることが特徴ですが、同じように考えると、「他の機器やサービスと連携して機能を拡充できる」仕組みを持っているのがスマートスピーカー、と呼べるのではないでしょうか。
――なるほど。
甲斐:これは余談ですが、新しく出てきた製品や概念をなんと呼ぶか、というのは結構難しいんですよね。私は以前Webメディアで記者をしていた時に経験があるのが、Twitterが初めて登場したとき、「一体何と呼べばいいのか」ということを自分の媒体だけでなく他の媒体もいろいろ試行錯誤していました記憶があります。
――ミニブログとかマイクロブログとか色々ありましたね(笑)
甲斐:スマートスピーカーも、フリーライター/ジャーナリストの西田宗千佳さんが、「AIスピーカーではなくスマートスピーカーと呼ぼう」という意見を発信していますね。
・「AIスピーカー」でなく「スマートスピーカー」と呼ぼう (1)
なぜ「AIスピーカー」は適切でないのか
――メーカー自身も、AmazonとGoogleはスマートスピーカー、LINEはスマートスピーカーとAIスピーカーの2つを使っていて、Appleはホームミュージックスピーカーと表現していて、メーカー間でも言葉が定まっていない印象がありますね。
メーカー視点ではスピーカーよりマイク
松本:むしろ、我々メーカーの立場から言うと「スマートスピーカー」というよりも、むしろ「スマートマイク」というほうがイメージは近いんです。
――それはどういう意味なんでしょう?
松本:スマートスピーカーを構成する部品は、スピーカーや通信機能はもちろんのこと、どんなマイクを搭載していてどんな仕様が実装されているか、ということが、ハードウェア的には大きな違いなんです。
スマートスピーカーは、部屋の中においてどの方向から発せられる声も認識できるように複数のマイクを搭載する必要があります。Clova WAVEは4つ、Amazon Echoは7つ、Google HomeはiFixitの分解記事によれば2つのマイクが搭載されているようです。ちなみにスマートスピーカーではないですが、シャープの「ロボホン」は4つのマイクが搭載されていますね。
――マイクの数の違いにはどういう意味があるんですか?
松本:マイク数に加えて、どのような方法で音声認識しているのかも大事なんです。スマートスピーカーの音声認識は大まかに言うと、対象となる音声を特定した上で、その声だけをサーバーで解析、適切な回答をサーバーから返す、という流れですが、その精度を高めるためにいくつかの技術が使われています。
1つはノイズリダクションで、今回の場合で言えば、音声認識に必要な人間の声以外の音はノイズと捉えてできるかぎり除去してしまうことで、対象となる音声を特定しやすくする技術です。音楽がかかっている部屋の場合、音楽はノイズとして扱い、スマートスピーカーに話しかけた人の声だけを認識する、といったイメージですね。
もう1つはビームフォーミングという、声が発せられている方向からの音だけを強調するという技術です。ノイズリダクションもビームフォーミングも、周囲360度の音を認識するために複数のマイクが必要なんです。単純に前後だけでも2つは必要ですし、90度ずつ認識するなら4つのマイクが必要になる。
また、ビームフォーミングは製品によって搭載されているものといないものがあります。搭載しない製品の例はClova WAVEですね。Clova WAVEの分解記事を見るとマイクに関してはConexantというメーカーの4マイク構成の音声入力プロセッサを搭載するSoC(System-on-Chip)を採用していますが、このSoCはノイズリダクションをするだけでビームフォーミングはしないんです。
一方、Amazon Echoは「Alexa」って話しかけるとその方向ににLEDが光ることから見ても、ビームフォーミングをしていることはあきらかですね。
・LINE Clova WAVE を開封してバッテリーを取り出してみた – Qiita
――ビームフォーミングをしていないということは音声認識の精度は低いということですか?
松本:精度だけで見ると多少は下がるかもしれませんが、ビームフォーミングをしないことで逆に「移動しながら喋っても認識する」という利点もあるんですよね。でも、実際に使うシーンを考えると、多分普通はそんなに動かないかもしれませんけど(笑)。
ビームフォーミングという技術自体はうまくいけば精度が上がるんですが、正しい方向を認識できないと逆に精度が下がってしまう、ピーキーな性質を持つ技術でもあるんです。
――なるほど、部品を見るだけでもいろんな違いが見えてくるんですね。
松本:そうですね。例えばAmazon EchoはKnowlesというメーカーの製品を使っているようですし、マイク数も7つで処理をする形で、全体的にお金を掛けて作っていることがわかります。品質重視でリファレンス的な位置付けなんでしょうね。一方、Google Homeははこなれた感じで安い部品も使っていて、数を売るのを前提に作っているイメージです。
・Amazon Echo Dot Teardown – iFixit
甲斐:精度を上げるという点では、誰が話しているかを声で特定する「話者認識」も各社実装していますね。Google Homeが一番最初に対応していて、その後Alexaがアップデートで対応し、Clovaも今後対応予定としています。なお、Alexaについては日本語版のアプリに設定メニューが見当たらず、日本語版ではまだ対応していないようです。
松本:先ほど、Google Homeはビームフォーミングをしていないようだと言いましたが、話者認識をしていることもあって、ビームフォーミングが必須ではない、と判断しているのかもしれません。ビームフォーミングと違って話者認識はソフト側で行う処理なのですが、Googleはこのあたりで今まで積み重ねてきたノウハウがあるんでしょうね。
――高いとか低いとか、人の声の周波数が違うことはわかるんですが、違いってハッキリと出るんですか?
松本:基本的には声の波形から特徴を導き出して認識するのですが、同じ人の声を何度も学習を上げるというやり方も組み合わせてさらに精度を上げているんだと思います。実際に使ってみると、Google Homeの話者特定は相当精度が高いんですよね。
――でも、「OK, Google」って言わなくても音楽を聴いているだけで反応することがあるんですよね。
甲斐:そうですね。Google Homeの使い方を知りたくてYouTubeの動画を見ている時、動画の中での「OK, Google」に反応したこともありました(笑)。
松本:おそらく、話者特定は「OK, Google」以降の言葉で行っているんでしょう。プライバシーに関わらない操作はだれの声でもできるけど、スケジュールといった内容については話者を特定した上で正しい人にだけ教える、みたいな。
甲斐:そう、話者認識は精度向上だけでなくプライバシーという点でも重要ですよね。家族がみんなで使うようになった時、親が自分のスケジュールを聞こうとしたら娘のスケジュールを知ってしまった、なんてことになると大変なことになるかもしれませんし。
国内の機器連携の鍵は赤外線対応
――マイクや音声認識周りはメーカーごとかなり違いがあることはわかりましたが、その他にも何か違いがあるんでしょうか?
甲斐:Clova WAVEは他と違ってバッテリーを搭載していますよね。
――バッテリーって必要ですか?
甲斐:自宅内で好きなところに持ち運べるのはスピーカーとしては便利ですよね。また、これは想像ですが、普段はスマートスピーカーをリビングに置いておき、料理をするときにはキッチンに移動させてタイマー機能を使ったり、というようなシーンを想定しているのかもしれません。
我が家の場合、リビングにGoogle Homeを置いてキッチンから話しかけても十分に反応してくれるので動かす必要もないのですが、部屋が扉で分断されていたり、スピーカーとキッチンの距離が離れていたら声も届かないでしょうし。
松本:それにしてもバッテリーを積んだのは面白い判断だなと思います。
――というと?
松本:安全性の問題が一つ。最近は飛行機に乗るときにバッテリーの規制が厳しくなっていることからもわかる通り、バッテリー搭載製品は安全性の基準も厳しく、輸送も大変なんです。
また、バッテリーは供給できる電圧を一定以上には高くできないので、スピーカーを鳴らすために必要な電圧まで昇圧が必要です。スピーカーの音量は電圧に依存するようなところがあり、一定の音量や音質を確保するためにはどうしても電圧が必要なため、バッテリーはスピーカーの部品として搭載するとなると相性が悪いという面があるんです。
もちろんバッテリーを搭載したスピーカーもたくさんあるので設計次第ではあるのですが、バッテリーがない設計のほうが格段に楽にはなりますね。
――バッテリー以外にも何か違いはありますか?
甲斐:赤外線通信をClova WAVEだけが標準で搭載していますよね。
松本:そうですね。そもそも赤外線でのコントロールがこれほどまで多用されているのは日本だけなんです。アメリカではすでにスマートホームがかなり普及していますが、「Z-Wave」っていう無線規格が多く使われています。また、エアコンはそもそもつけっぱなしでオンオフ操作をしないという文化からあまりリモコンが使われておらず、赤外線リモコンを飛び越えて「nest」というスマート空調管理機器の普及が進んでいます。そもそもアメリカは日本よりも家が大きく、家の中なのに見通しが悪いなんて空間もあるので、赤外線だけだと難しいようです。
甲斐:Google Homeに合わせて話題になっているのが、「Nature Remo」のような赤外線搭載の学習リモコンですね。
――家電の赤外線操作を中継する製品ですよね?
甲斐:はい。Nature RemoはGoogle Home経由でのコントロールが可能になっているんです。正確にいうと「IFTTT」という中継サービスを介して「Google アシスタント」と連携することで実現している機能ですが、Google Homeに話しかけることでNature Remoをコントロールして、テレビを消したり、リモコンを入れたりという操作が可能です。
Alexaもグラモの「iRemocon」やリンクジャパンの「eRemote mini」といった学習リモコンが対応していますね。こうした製品を使うことで、テレビやエアコンといった赤外線リモコン対応の機器を声で操作できるようになります。また、赤外線ではないのですが、Google HomeとChromecastを使うとテレビの電源のオンオフも声で操作できるんですよ。
――え? そんなことできるんですか? 「Netflix」のドラマを音声で表示/再生させることはやったことがありますけど、「エピソード指定はできません」と言われて「何じゃそれ」とガッカリしていたんですが、テレビのオンオフができることは知りませんでした。
甲斐:これは赤外線通信ではなくて「HDMI CEC」を使った機能なんです。HDMI CECというのはHDMIで接続された機器同士を制御する機能で、レコーダのリモコンを使ってテレビを操作する、みたいな使い方ができるんですが、ChromecastはこのHDMI CECをうまく活用して、テレビのオンオフもできます。
しかも地味に便利なのが、ちゃんとオフにした時の状態で再度オンになるところ。オンにするたびに毎回Chromecastの画面が表示される、なんてことはなく、テレビのリモコンと同じように、オフにするまで表示していた画面がそのまま表示されるんです。
ちなみにAlexaもAmazonの「Fire TV」と組み合わせることで同じような機能を実現しているのですが、残念ながらいまのところこの機能は英語のみで提供されているようです。我が家にはFire TV Stickもあるので、日本語版の対応が待ち遠しいですね。
声のカスタマイズは現実的?
――スマートスピーカーに何らかの機能を実行してもらう際、特定のワードを投げかける必要があります。Google Homeだと「OK, Google」や「ねぇ、グーグル」といったワード、Amazon Echoだと「Alexa」、Clova WAVEだと「Clova」といった具合にです。このようにスマートスピーカーを起動するためのワード「トリガーワード」も各社異なります。
松本:トリガーワードは各社色々と考えていることがわかります。「Alexa」なんかは日常で使わないような言葉を選んだという話しですが、確かに辞書を引いても近しい単語はほとんどないんですよね。
――でも、できればトリガーワードは自分で好きな名前を呼びたいですよね。
松本:その気持ちはわかるんですが、これが難しくて。というのも、トリガーワードは反応をできるだけ早くするためにハードウェア側で辞書データを持ち、サーバーにデータを投げる前に処理しているんですね。これを好きな言葉に代えようとすると辞書データのサイズも大きくなるし、どの言葉かを認識するかを考えなければいけなくなるのでスピードも落ちる。
最初から「Alexa」と呼ばれるのがわかっているのと、どの言葉で呼ばれるのかわからないのではやっぱり対応スピードは落ちてしまいますよね。こうした技術的制約から、現状は特定ワードの起動に限られているんだと思います。
――でも、将来的にスマートスピーカーが普及して、大勢が同じ空間で「OK, Google」と話しかけはじめたら、同じトリガーワードだと大変になりませんか?
松本:そういうことからもビームフォーミングって重要なんですよね。ビームフォーミングがきちんとできていれば、理論上はスピーカーに対して話しかけられた声のみに応答するはずなので。
――今後、Google Home対応のロボットとかも出てきそうですが、ロボットに向かって「OK, Google」って言うのもおかしいですよね? せっかくならロボットの名前を呼びたい。
松本:確かにおかしいですね(笑) あくまで現状の仕様なので、今後技術が進んでトリガーワードは変えられるようになるといいですね。
甲斐:トリガーワードが本体に保存されるのだとしたら、自分で作ったトリガーワードを本体のストレージに保存する、なんてやり方でカスタマイズすることができないでしょうか。
松本:おそらく理論的には可能だと思いますが、実際に製品に載せた例などは現状は皆無な気がします。これはトリガーワードをどういう辞書として作るかというところまで話が及ぶのですが、現状のトリガーワードは老若男女数百名近くを集めて、それぞれ100回近いパターンでトリガーワードを発声してもらい、各人で共通の特徴を抽出する、という作り方をしています。米Sensory社の技術がこのアプローチです。
同じことをユーザーの環境でやるのは大変ですし、一般家庭では録音の環境も安定していません。トリガーワードの処理そのものも非常に重たいため、現状、ハードウェアに載せるところまで世の中としては進んでいないのだと思います。とはいえ技術的にできないわけではないので、そのうちGoogleあたりがやってくるかもしれませんね。その時のアプローチはまったく違う方法かもしれませんが。
甲斐:トリガーワードは難しくても、流れてくる声を変えられるといいですよね。声優さんの声で流れてくるとか。
松本:ただ、スマートスピーカーの場合は音声合成を使うのですが、声優さんの声と音声合成って相性が悪いんですよね。せっかくの声優さんの声も音声合成だと不自然になってしまうので。
甲斐:初音ミクのように最初から音声合成だと自然に受け入れられるかもしれませんね。それに、Cerevoの1/8 タチコマも玉川さんの声を音声合成で使っていますが、それでもまったく知らない声より嬉しいし、評判もいいんです。
余談ですが、Google HomeとAlexaが対応している「ピカチュウトーク」は、すごくセンスがいいなと思いますね。先ほどの通り音声合成はやっぱり不自然に聞こえがちなんですが、ピカチュウは何を聞いても「ピカー!」しか言わないから不自然に感じない(笑)。便利でもなんでもないんですけど、おもしろいアイディアだなと感じました。
今後は他機器との連携やビジネス展開に注目
――スマートスピーカーが続々と出てきていますが、今後搭載してほしい機能はありますか?
甲斐:個人的にはBluetoothとの中継機能ですね。Google HomeもAlexaも基本的に無線LANに対応した機器をコントロールしていますが、いわゆる「IoT」と呼ばれるガジェットでは、消費電力が非常に小さくてすむBLE(Bluetooth Low Energy)を採用している製品が多いんです。無線LAN機器はどうしてもコンセントが必要になりがちですが、BLEならバッテリーだけで1カ月以上動作させることもできるので。
たとえばスマートロックの「Qrio」はBLEでスマートフォンと接続する仕組みですが、インターネット経由でも操作できるように無線LANを搭載した「Qrio Hub」という周辺機器が別売されています。こうしたBLEのハブ的な機能がスマートスピーカーに集約されて、対応機器が増えていくともっと便利になっていくんじゃないでしょうか。
ちなみにEchoの最上位モデル「Amazon Echo Plus」はハブ機能を備えているんですが、方式がZigBeeという、あまり日本では使われてない規格で、国内で使えるのはフィリップスの「Hue」といったスマート電球くらいです。
松本:私は有線LANポートを搭載して欲しいですね。
甲斐:載せて欲しいですね! 実際、そのうち有線は必要になると思います。
――スマートスピーカーに有線って要るんですか?
甲斐:安定性の問題ですね。無線LANは電波が混雑しているエリアではうまく動作しないこともありますし、その時何が原因かを特定するのも難しいんです。その点、有線LANなら電波の混線は心配いりませんし、物理的に接続しているのでつながらない理由も特定しやすい。
今後スマートスピーカーがビジネスシーンで利用されるようになってくると、有線LANは必要不可欠になってくるのではないでしょうか。例えばカフェでスマートスピーカーを導入した場合、Wi-Fiだと周辺のスマホが多すぎてうまくつながらないので有線LANで接続する、といった用途として必要になってくると思います。
――確かに、大勢が集まるイベントでも無線LANはつながりにくいですしね。
松本:ビジネスユースは絶対に広がると思います。会社内でも会議室とかでも使いそうですし。
――なるほど。スマートスピーカーはパーソナルユース、ビジネスユース問わず、徐々に普及していきそうですね。今後もスマートスピーカーと呼ばれ続けるのかは分かりませんが、このジャンルの製品への関心は益々高まっていきそうです。
甲斐:ビジネスという面では、今後増えるであろう他メーカーの製品も気になりますね。スマートスピーカーは今までの話にもありましたがやるべきことが多くて開発が大変なハードなんです。一方でGoogleやAmazonの製品は信じられないくらい低価格でスピーカーを販売しているので、今後どういう製品が出てくるのか。
AnkerはAlexa対応スピーカーを低価格で発売し、ソニーは独自仕様の技術を搭載したコミュニケーションロボット「Xperia Hello!」を約15万円近くという比較的高価格帯で発売したりと、メーカーごとにいろいろなアプローチをしているのも興味深いところです。
松本:最近はプロセッサが高速化されていることもあって、音声の処理はソフト化が進みつつあるのですが、今後は音声をソフトで処理するのか、Conexantのようにハードでがっちり処理する流れになるのかは、エンジニアとしては気になるところです。
ハードでやると安定した意図した性能は出るけれど特徴が出しにくいので、SoCをカスタムできるような大手以外のメーカーはソフトで処理することになるんじゃないでしょうか。Alexaと違って360度は認識しないけれど、限られた狭い範囲だけでもいいからめちゃくちゃ精度を上げてくれ、といったカスタマイズにもソフトの方が対応しやすいですね。
――ありがとうございました。
(長田 卓也)