西田宗千佳のRandomTracking
第438回
Amazonに聞くAlexaの今。プライバシー、賢さ改善、そしてEcho Show 5
2019年6月12日 07:30
6月4日から7日まで、米ラスベガスにおいて、Amazonが主催する「re:MARS」というイベントが開催された。このイベントは「機械学習(Machine Learning)」、「自動化(Automation)」、「ロボティクス(Robotics)」、「宇宙(Space)」を軸に、現在の社会を変えつつあるコアテクノロジーについて、関係者を集めて語り合う場だった。元々はジェフ・ベゾス氏が少人数を集めて行なう個人的な催しだったようだが、その愛称であった「MARS」をとって、大々的なイベントへと姿を変えた。
初日の基調講演にはロバート・ダウニー・Jr.が登場、「アイアンマン」を初めとしたマーベル・シネマティック・ユニバース作品出演の思い出を絡めながらAIについて自説を語り、「AIとロボティクス、ナノテクを使えば、現在の環境問題を解決できる」として、2020年に自然環境保護団体「Footprint Coalition」を立ち上げると発表している。
イベント全体から、本記事では特に音声アシスタント「Alexa」と、それに関わる機器について触れていきたい。先日、日本でも「Echo Show 5」が発表された。発売はまだしばらく先で、実機のお披露目はされていない。
しかし、今回の取材中に実機にも触れることができたので、そのインプレッションも含めてお伝えしよう。
Echo Show 5で「選択肢を増やす」
まずは「Echo Show 5」からだ。5.5インチのディスプレイを使った製品だが、かなりコンパクトで、見た目はかわいい。丸いディスプレイの「Echo Spot」もかわいい印象だったが、こちらはまた趣が異なる。キッチンやサイドデスクにぴったり、という雰囲気だ。
Amazon Devices・バイスプレジデントのミリアム・ダニエル氏は、Echo Show 5投入の理由を次のように説明する。
ダニエル氏(以下敬称略):すべては最初のEchoを出した時の経験に基づきます。のちに「Echo Dot」という低価格の製品を出しましたよね。
私たちは、より多くの顧客に選択肢を与えたいと考えています。
筒型の、大きなEchoはリビングルームに、小さなEcho Dotはキッチンや寝室に行く……というユースケースが一般的です。
ご存じのように、10インチクラスのEcho Showはフットプリントが大きく、スペースのない場所には置きたがらないものです。小さいキッチンのアパートや、小さなナイトテーブルを使っているベッドルームなどですね。ですから、そもそも小さなフットプリントのものが求められていたのです。
初めてこの種の製品を試すユーザーは、小さなジャンプからスタートしたいものです。だから、低価格も魅力的でした。
私たちは、製品を家のいろいろな場所に置けるようにしたいと考えています。そうすることで、サービスにアクセスする方法を多様化したいのです。
「Echo Showの利用者からのフィードバックによる改善点もある」とダニエル氏は言う。
Echoシリーズの製品には必ず「ミュートスイッチ」がある。これを有効にすると、スピーカーやカメラへのアクセスが「電源供給から」切れる。Echoが反応しては困る時、アクセスしたくない時などに使うものだ。
ダニエル:ユーザーはさらなる安心を求めています。そこでこのスライダーを追加しました。スライダーを動かすと、カメラだけがオフになります。カメラの電源を切っても音声でデバイスと対話できるという安心感を顧客に提供するために組み込みました。この世代のEcho Showに提供したい重要な機能の1つです。
もうひとつ、特に日本の顧客からのフィードバックが多くあったものがあります。
それは「もっとタッチで操作したい」というものです。彼らはあまり声で操作したくないのでしょう。カスタマーレビューを見ても、Echo Showにより多くのタッチ機能を求めているのが分かります。
ですからこのソフトウエアのリビジョンでは、たくさんのタッチ機能を追加しています。
ホーム画面を素早くスライドする操作を追加しました。スマホにあるダッシュボードと同じような機能を用意しています。そうしたアプローチは、特にベッドサイドでは有用と判断したためです。確かに、寝室で子供やパートナーがすでに寝ている時には、あまり大声を出したくないものですよね。
それから、私たちが「Discover Card」と呼ぶものも搭載しました。このカードでは、Echo Showでなにができるのかを示しています。写真を見る、Kindleの本を読む、ゲームをあそぶなど……。追加した理由は、より操作のリファレンスを求める顧客のニーズに対応するためです。
またここからは、各種スマート家電にもアクセスすることができます。もちろん、Echoにそれらの機器が接続されていれば、の話ですが。
AmazonはEchoのような音声中心のデバイスをすでに持っている。そこに現在、ディスプレイのついたEcho Showを追加中だ。「どちらが支持されるかは顧客次第」とダニエル氏は言うものの、次のような状況があることも明かす。
ダニエル:私たちが発見したのは、「視覚的な使い方が、よりエンゲージメントを促進している」という事実です。
部屋の中を歩きまわりながら、何かをすることはよくありますね。そこで、ニュースなどをEchoで、音声で聞くのは便利なことです。しかし、Echo Showでは、ハイライトビデオが流れます。トレンドのストーリーのカードも見られます。
音楽でさえ、Echo Showの価値は高いと思っています。ディスプレイデバイスと非ディスプレイデバイスの間で音楽を比較すると、音楽への接触率は、さらに高くなります。アルバムアートを見たり、歌詞を見たりできるからです。
自宅でEcho Showを使っているが、これはとてもよくわかる。テレビのことを考えてもらえばいい。音だけ聞いているシーンはかなりある。でも、そこに映像が伴っていても困りはしないし、むしろ助かる。そうやって、機器とのコミュニケーションをリッチにしていくことがAmazonの目的のひとつなのだ。
責任者が語る「タグ付け」プライバシー問題
一方で、Echoのようなデバイスを使う時に気になるのは「プライバシー」の問題だろう。先日もアメリカでは、「Alexaの学習のために集められた音声データを、Amazonから委託された人々が自由に聴いていた」という報道がなされ、そのプライバシーのあり方について批判された。
Amazon Devices シニア・バイスプレジデントのデイブ・リンプ氏は、Alexaとプライバシーにまつわる状況について、次のように説明する。
リンプ:音声認識や音声対話があろうがなかろうが、機械学習とAIには学習が必要です。我々が「Ground Truth」と呼ぶ、基本的な能力を得るためは、基本的に、データに「タグ付け」をする必要があります。
例えば音声認識の場合、あなたが言ったことを機械が認識します。その認識は、人間によって時に「確認」されます。そこからエラーを見つけることで、学習ができます。学習にはエラーの検出が必要です。
初期からそうした手法を使っており、そのやり方については一般公開済みです。ランダムに選択され、匿名化されています。使っている、取得しているオーディオのうち、1%にすぎません。
これが実際に行なわれていることです。
そして、メディアによるレポートはセンセーショナルすぎて、正確性に欠けていました。
確かに、時に取得されているオーディオが聞かれることはあります。Amazon従業員の中で、再びタグ付けする際です。いくからの請負業者が関与する場合はありますが、記事に書かれていたように、すべての請負業者ができるわけではありません。タグ付けを行なっている大多数の人々はAmazonの従業員です。タグ付けツール上では匿名化が行なわれており、顧客情報は紐付いていません。名前もないですし、位置情報もない。そもそも一緒には存在しないのです。
学習でのタグ付けには、プライバシーの問題があるだけでなく、「そこに人が関わる」という労力の問題がある。実際、機械学習をビジネスに使う場合、「タグ付けコスト」の問題は深刻であり、解決が必要だ。
現在Amazonでは、タグ付けに人を介さず、自動で機械自身が学習をしていく技術の開発も進められている。これが動きだせば、「プライバシーについての懸念は小さくなるだろう」とリンプ氏も話す。
「声でデータ削除」などの機能も整備
とはいえ、そうした状況に顧客が不安を感じるのは自然なことだ。そのため、Amazonは顧客情報の記録や最適化について、改善を加えることになった。
リンプ:重要なことは、顧客がそれを望んでいないのであれば、その機能をオプトアウトすることです。
まず我々は、顧客が簡単にデータを削除する機能を搭載しました。「Alexa、今日の私の音声データを削除して」といえばいいのです。この機能は世界中で提供する予定です。
また「Alexaプライバシーハブ」と呼ばれる新しいWebサイトも用意しました。こちらも世界中で利用できるようにします。ここから簡単に、記録されたデータを確認し、削除できます。
とはいえ、です。
個人による利用履歴があった方が、精度もたかまりますし機能がアップするのも事実です。
Alexaは基本的な音声モデルを持っていますが、あなたのオーディオデータがあれば、より精度があがります。そういう質問をAlexaがしてくることはありませんが、自動的に「パーソナライズ」されているのです。
2つ例を挙げましょう。
音楽のプレイリストでは、名前を自由に付けます。時には、母国語ですらない、特別な言葉を使うこともあるでしょう。それでも認識されるようにしなければなりません。
また、家の部屋にそれぞれ名前もつけます。各部屋を認識できるようにです。
そうした学習を促されることはありませんが、何度も何度も呼びかけることで、モデルがあなたのために改良され、良くなっていきます。
もちろん、こうしたデータを削除してしまっても、Alexaはちゃんと動きます、しかし、パーソナライズされたものほど正確ではありません。
一方で、クラウドに頼らず、デバイス内ですべての処理を完結させれば、「クラウドにデータを収集している」とプライバシー面での不安を払拭させることができる。この点はどうだろう?
リンプ:時間が経つにつれて、いくらかはデバイス内だけで処理できるようになると思います。確かに、私たちのデバイスでも、ウェイクアップフレーズを理解する能力はデバイスで処理されています。
しかし、全体的なスピーチモデルではなく、語彙はそれほど大きくできず、デバイスだけでは今日、実行することができません。
iPhoneは非常に強力なデバイスです。しかし、彼らもスピーチモデル全体をローカルで実行できず、クラウドでSiriを実行しなければなりません。認識のためのモデルは非常に大きく、ローカル比率を高めると、精度が劇的に下がるからです。
スキルと「ちゃんと対話」する「Alexa Conversation」実装へ
Amazonは現在、Alexaの能力を高めるため、「Alexa Conversation」という技術を開発中だ。
Alexa ヘッドサイエンティストでバイスプレジデントのローヒット・プラサード氏は、「従来、スキルの中でちゃんとした対話を実現するには、対話自体を実際にコーディングする必要があった。それには大変な労力がかかる。しかし、機械学習をベースにしたAlexa Conversationを使えば、スキルを開発する企業は、ほんの少しのコードを書くだけで、スキルと人の対話を実現できる」と話す。
また、スキルを連携した機能の実現にも使われる。「夜の映画に行く時、人は映画に行きたいだけではない。家から移動し、ディナーを食べて映画を楽しむ、という一連の体験をしたいのだ」とプラサード氏はいう。
Alexa Conversationはre:MARSの基調講演で発表された。複数のスキルを連携する「予測機能」を組み合わせることで、まさに「対話しながら」目的を達成することを狙う。
このためには、スキル側でも連携を前提とした設計が必要になる。そのため、Atom・Uber・OpenTableが初期パートナーとして選ばれ、スキル開発が行なわれたという。
Alexa Conversationは、英語向けの開発プレビューが始まっており、パートナーはこうした対話機能を持つスキルの開発が行なえるようになった。日本語への対応はまだだが「もちろんその予定はある」という。