西田宗千佳のRandomTracking
第408回
LINEのClovaは“4次元ポケット”を目指す。音声AIにキャラが必要な理由
2018年9月11日 08:10
LINEがボイスコミュニケーションAIである「Clova」を開発し、スマートスピーカー市場に参入してから1年以上が経過した。同社が夏に先陣を切り、その秋にGoogle・Amazonという海外大手が参入したことで、スマートスピーカー市場は日本でも大きな注目を集めることとなった。
一方で、LINEのClovaを巡る評価は、芳しいものではなかった。ただ、同社は研究開発を続けており、機能も向上している。6月28日に開かれた「LINE CONFERENCE 2018」でも、その進捗や新製品などの情報が公開された。
大手優位が伝えられる中で、LINEはボイスコミュニケーションとスマートスピーカーの市場をどう捉え、どう戦おうとしているのだろうか? 昨年に続き、LINE・取締役 CSMOの舛田淳氏に話を聞いた。
「ガジェット層以外に届ける」狙いは達成
まず気になるのが、同社のスマートスピーカー製品の売れ行きだ。同社は販売実績を公開していない。また、最初に発売されたモデルである「WAVE」は、初期に命令起動用の「ウェイクワード」である「Clova」という言葉の誤認識が多いなど評判が良くなかった。現在は改善もなされており、ウェイクワードを「ねぇ、Clova」に変えることで、認識率の向上も果たしているという。
舛田CSMO(以下敬称略):昨年夏、国内最初のスマートスピーカーとして「Clova WAVE」を発売し、12月には、第2弾の「Clova Friends」を発売しました。
ハードウェアとして、WAVEとFriendsではレスポンス速度が別物といっていいほど違います。WAVEは我々にとって、ハードウェアビジネスの「初号機」。はじめてなので色々と苦労した点はありました。ですので、どちらかといえば、まずFriends側でアップデートを実装し、そのアップデートをWAVEに返していく、というやり方をしました。現在はレスポンスなども、両デバイスが同じくらいになっています。
そもそも我々は、後ろの進化、すなわちソフトウエアの改善の方が本質だとは思っていました。ウェイクワードの誤認識が多い、というご指摘もいただきましたが、ようやく学習が進んで、ウェイクアップの精度改善も進んだと考えています。
正直我々は、できれば「Clova」一言が良かった。「ねえ」と毎回語りかけるのは自然でない、と思っていたんです。それでも精度は上がってきているのですが、「精度をさらにあげよう」と判断し、ウェイクワードに「ねぇ、Clova」を追加しました。これで精度は飛躍的に向上しています。音声認識自体も段階的に改善しており、子供の声や年配の方の声もカバーしました。レスポンス速度も向上しています。
一方で、スマートスピーカーとしては、注目度では「Google」「Amazon」の2強に劣るようにも思える。特に、テクノロジーに強い人々の目線で見ると、そういう風に見えてしまう。その点をどう見ているのだろうか?
舛田:我々は、世界でいうと後発。それは しょうがないことです。もともと考えていたのは「いわゆるガジェット好きでない人々のところに届けたい」いうことでした。そこは、狙い通りになったと感じています。
「お父さんは違うものを買おうとしていたが、お子さんから『こっちがいい』と言われた」「こっちの方が可愛いから買いました」「孫のために買いました」という方が多いです。
「1年目」は緩やか、ブレイクは「連携家電」から?
では、その「後発」の立場として、日本のスマートスピーカー・音声アシスタント市場の立ち上がりをどう分析しているのだろうか? 「日本はアメリカに比べ、緩やかなのは事実」とした上で、次のように語った。
舛田:日本の「スマートスピーカー1年目」は、まだゆるやかに伸びている状況。黎明期であり、すすんではいるが、一歩一歩……という状況でしょうか。
重要なのは、日常生活のなかにどう溶け込むか、必要とされるかということ。「スマホでいいんじゃない?」と言われることもありますが、すでにアクティブに使っておられる方は、スマホとスマートスピーカーで役割分担をし、使い分けておられます。
弊社の役員の中にも、「スマホでいい」と言っていたのに、子供を生み、抱っこしないといけなくなった時に「あ、こういうことね、とわかった」という人間がいます。
課題は、わかりやすいものがない、ということ。要は、家電を声で動かすための環境が整っていないんです。家電メーカーも対応しつつありますが、海外に比べ2、3年遅れている状況です。
そもそも、「声で操作するからいますぐ家電を全部買い換える」という人がいるか、というとそうでもありません。住環境の中心にIoTが置かれていないのです。(周辺機器連携の)Clova Homeも含め、これから環境が出来てくるのだと思います。
LINEのスマートスピーカーには、ひとつ特徴的な機能がある。最初期モデルであるWAVEには「赤外線リモコン」機能が付いている。また、赤外線リモコンのないFriendsについても、後日、赤外線リモコン機能を搭載した「Clova Friends Dock」が発売されているが、これも「売れている」(舛田氏)という。
舛田:「Clova Friends Dock」は非常に売れています。WAVEに赤外線リモコンは搭載しておいて良かったな、と思いますね。リモコン機能を使い始めると、利用者のアクティブ率がどんどん上がるんです。
VUI(音声UI)で家電を使う、という部分については、現在、私どもも含めて、メーカー・供給・サービサー側がともに、その環境を作っているところです。
正直なところ、Clovaでのホーム対応については、我々側がプラットフォームとして対応できていなかった、グローバルからみれば、後発であった部分があります。しかし、Clova向けにスキルを開発するのは難しいことではありませんし、AlexaやGoogleアシスタント対応製品を作っているメーカーの方から「対応したい」という声もいただいています。ですから、時間の問題です。
IoT家電は2020年にむけて登場し、徐々に家庭で入れ替わっていくでしょう。これからこの先何年かかけて変化が起きます。VUIの開発について、1年を目安にやるものだとすれば、成功しないですよ。新しいエコシステムを作ろうということなので、時間はかかるでしょう。
スマートフォンからスマートスピーカー、車でのVUI体験へと、徐々に波紋のように広がって、つながっていって連続体験をどうデザインしていくのか。どう便利に、簡単にするのかを、順次考えていきたいです。
先行するAmazon・Googleは、スマートスピーカーの競争の次の段階として「ディスプレイ付き」を指向するようになっている。日本でもAmazonが「Echo Spot」を発売した。Googleの「スマートディスプレイ」も、そう遠くないうちに出るだろう。LINEもすでに「Desk」というディスプレイ付き端末の発売を準備中だ。
舛田:ディスプレイ付きは、スピーカーのみのものとは「わかりやすく違う体験」ですね。すべてにおいてわかりやすい。遠くから見づらいなどの問題はありますが、ディスプレイで少し補助してくれるものの方がいい。
スピーカーのみとデュスプレイ付きでは、ディスプレイ付きの方がニーズは高いのではないか、と思います。
そこに対する「キラースキル」はなにか? ということで、家の中のサイネージ、家の中の付箋を集約するようなコンセプトの機能をいれました。
とはいえ、根底はスピーカーと同じです。エコシステムの満足度をどうやって上げるか、家庭内の「なにを置き換えるのか」がポイントになるでしょう。
日本でもついにストリーミング・ミュージックが普及段階に
海外においてスマートスピーカーの普及が早かった背景には、それらの国で音楽サービスとして、SpotifyやApple Musicなどのストリーミング・ミュージックが定着していることがある。この点については舛田氏も同意する。では、日本ではどうなのだろうか? LINEは「LINE MUSIC」を運営しており、そことClovaの関係も密接だ。
舛田:ストリーミング・ミュージックがベースにある国で、スマートスピーカー市場が伸びがちである、というのは事実ですね。
日本でも、ストリーミング・ミュージックの契約者数は、去年下半期くらいから、急速に伸び始め、今も毎月毎月伸び続けている状態になりました。「日本ではダウンロードの市場すら超えられない」という人までいたのに、ついにダウンロード市場の売り上げを抜きました。
ですが、まだ序盤戦です。国内での利用者1,000万人は、早々に達成するでしょうし、2,000万人も見えてきます。
音楽サービスとスマートスピーカーの関係は、プラットフォームによって依存度が少しずつ違います。ですが、Clovaでの依存度は非常に高いです。LINE MUSICの利用者は明確にClovaへの接触時間が長くなっています。リモコン機能と・音楽プレイヤーの2つは、スマートスピーカーにとって、わかりやすいキラースキルといえます。
そして、LINE MUSICそのものも、Clovaのチームと共同で、サービス改善を進めている、と舛田氏は言う。
舛田:現在LINE MUSICでは、レコメンドをさらに高度化しようとしています。Clovaのチームが中に入っていって、より良いレコメンドができるものに入れ替えようとしています。
では、Clovaにおいては、今後もLINE MUSICのみの対応としていくのだろうか? どうやらそうではなさそうだ。
舛田:VUI、バーチャルアシスタントの会社の中に音楽サービスを持っていることは、非常にシナジーが生まれやすい構造です。本当に「LINE MUSICをやっておいてよかった」と思います(笑)。LINE MUSICを、Clovaという存在、LINEと密結合させることは、やります。
一方、Clovaもプラットフォームですから、いろいろなサービスが使えた方がいいのも事実。ほかの音楽サービスが入ってくるのはかまわないですし、他社とそういう話も開始はしています。
自社で持っているからこその、密結合としてのクオリティをどこまで出せるか? ここからは競争ですね。
LINEの「キャラ路線」は好調
スマートスピーカーや音声アシスタントを「キャラ化」するのは、日本人にとっては自然なことに思える。だが、アメリカのプラットフォーマーは、あまりそこに熱心ではない。「満足いくものを作るのが難しいから」という事情はあるだろうが、「キャラもの」「かわいさ」などへの考え方の違いもあるだろう。
LINEは第2弾である「Friends」で自社のキャラクターであるブラウンとサリーをモチーフにした他、6月には数量限定ながら、「Clova Friends mini(ドラえもん)」が発売された。そして、8月21日からはミニオンズをキャラクターとした「Clova Friends ミニオンモデル」が発売になっている。
舛田:ハードウェアとしても、やはりキャラがついているものの方が人気は高いです。キャラがついている方が、リテンションレートが高い、要は「話しかけやすい」ようです。この方向性に、我々は自信をもっています。今後は中身にもキャラ性をもたせたい、と考えています。
他方で、「ドラえもん」バージョンのClova Friendsを見ると、今の音声アシスタントの限界もわかる。ドラえもんの形をしているのだから、我々は「ねえ、Clova」ではなく「ねぇ、ドラえもん」と呼びかけたくなる。だが、ドラえもんバージョンもウェイクワードは「ねぇ、Clova」である。そこからドラえもんを呼び出す、という形を採っている。「ドラえもんとの対話」はあくまで音声アプリである「スキル」のひとつという位置付けであり、ワンクッション置いた構成だ。これは残念にも思えるが、この点は「あえてやったこと」だと舛田氏は言う。
舛田:今はスキルの中で会話する、という形です。もちろん、理想的にはどうか、といえば、すべての会話がキャラクターのものになることですから、我々もそれを目指したいと思います。
しかし、すでにあるキャラクターの世界観を壊さないようにしゃべらせるのはなかなか難しい。「ドラえもんはこんなこといわないよ」「言ってはいけないよ」というリスクが存在します。なので、最初の段階としては、決められた応答を使っています。これが第一弾です。
そういう意味では、「ミニオンズ」はいいんですよね。会話になっているようで、特定の言葉を話すわけではないので。実は非常に制約が少ないんです。
ただ現時点では、ああした形でも十分楽しんでいただけています。スマートスピーカーを手にとっていただくきっかけになるだろう、という意味では大きいかと思います。
学習の短縮技術で音声アシスタントに「声色」を追加
6月末のLINE CONFERENCEでは、ちょっと面白い技術が発表されている。
スマートスピーカーでの「合成音声」は、作るのに時間がかかる。非常に長い時間、大量のフレーズを収録し、そこから処理を行わないと作れなかったのだ。学習には、数百時間にも及ぶ時間が必要だ。
だがLINE CONFERENCEでは、その学習を「4時間」という、劇的に短い収録時間でありながら、かなり自然な音声が合成できるようになっていた。サンプルとして示されたのは舛田氏の声だったが、「あれはカンファレンスの合間に、4時間ほどで収録したもの」だと話す。
舛田:4時間くらいの録音データを使い、既存のボイスに特徴点を加える技術の精度が上がってきました。要は「声色」ですよね。
この先、この技術を使い、音声アシスタントのベースの音声をかえられるようになるでしょう。男女の切り換えはもちろんですが、ボイスアイテムのような形で、たとえば販売できるようにすることも可能です。
これは、「好きなキャラクターにしゃべってもらう」というより、「好みの声に変える」のに近いですかね。
やはり俳優さん・声優さん、キャラクターにも事情があるので、完全にそのキャラの声で……というのは難しい部分があります。しかし、すべての会話をその声で、というのは難しくても、「このスキルを使う時だけこの声」ということはできるでしょう。例えば、スケジュールやアラームは揺らぎも計算できるので、アイドルや俳優、キャラの声で話してもらう……、ということもできると思います。
いつか「ドラえもん」が出来る日のために
そもそも、音声アシスタントにおいて「キャラクター」を再現するのは簡単なことではない。そのことはLINE自身がいちばんよく分かっていることだ。
舛田:音声UIとして、単純にコマンドに「はい」と答えるだけでいいのか。「ちょっと待っててくださいね」と言ってもいいはずです。我々が作る音声UIのベースはコミュニケーションにあります。あるべき姿はコミュニケーションが中心になったスマートスピーカーです。
現在、それを実現するための「シナリオ」を増やし続けているところです。Clovaへの音声によるクエリーを分析しながら、どういう会話がいいのか、日時に合わせて、シナリオで決まっていることがベースにはなるものの、色々な要素をいれていこうと考えています。
しかし、ご推察通り、全部をシナリオベースにすると限界がきます。そこで、シナリオベースのものとAIの学習によるもの、ハイブリッドでどう体験を作るかが重要です。
すべてのデバイスがそうですが、今は人間側が音声エージェントに合わせています。ただ、黎明期はしょうがない。PCでもスマホでもそうでした。でも、どこかで逆転するはず。その時にはデータがものをいいます。どんな場合でもエージェント側が人間に合わせるようになったらゴールです。今は必要なデータを蓄積している段階です。
なぜLINEは、Clovaは「キャラ性を持ったコミュニケーション」にこだわるのか? そこには、Clovaを立ち上げる時の思いが存在した。
舛田:もともとClovaをどういうものにするか? 実は、社内でのプロジェクト名は「Jプロジェクト」と呼ばれていました。Jはなにかというと……、「アイアンマン」に出てくる「ジャービス」のJなんです。ある種のパートナーを作りたい、その思いを込めて「J」でした。
社内ではよく、「4次元ポケットは最適化がすごい」と言ってるんですね。あんなにたくさんのひみつ道具があるのに、ポケットに手を突っ込めば適切な道具が出てくる。まあ、慌てると失敗しますけど(笑)。これはある種、私たちが言っている「バーチャルアシスタント」そのものじゃないか、と。
ですから、ドラえもんのようなものをつくろう、というのは未来の象徴です。
Clova Friendsのドラえもんモデルを作った理由は、別の案件を話し合っている最中に、「もう、ドラえもんつくっちゃいますか?」という話になったからなんです。
もちろん今のものは、本当のドラえもんにはほど遠いですよ。
でも、これがいつの日かトリガーになっていればいいな、と思うんです。未来から見たら、「あそこで作ってたからドラえもんが出来た」といわれるように。