西田宗千佳のRandomTracking

第615回

アマゾンの新AI「アレクサ＋」ができるまで。開発担当者に聞く「完全新生」の舞台裏

西田宗千佳

2025年2月28日 09:04

米・AmazonでAlexaの開発を統括するバイスプレジデントのネディム・フレスコ氏

Amazonがついに発表した「生成AI時代のAlexa」であるAlexa＋(アレクサ＋)。どのような体験になるかは記事化したので、まずはそちらを併読いただけるとありがたい。

「Alexa＋」のコンセプトビデオ

では、Alexa＋はどのような経緯を経て、どう作られ、ここからどのような方向に進むのだろうか？

米・AmazonでAlexaの開発を統括するバイスプレジデントのネディム・フレスコ氏に詳しく話を聞くことができた。彼やその他のキーパーソンの言葉と実際の機能を比較しつつ、Alexa＋の実像に迫ってみた。

パーソナルアシスタントとして再び再生するAlexa＋

まずはAlexa＋とはどんなものかを振り返っておこう。

Alexaとの違いは「音声認識AIから作られたものか、生成AIから作られたものか」という点にある。

オリジナルのAlexaが登場したのはちょうど10年前。ディープラーニングによるAIがメジャーになってきた頃ではあるが、あくまで「音声をかなり正確に聞き取るAI」というところだった。その先に「聞き取った内容からなにをするのか」という処理が多数入っていた。当時の水準からいえば認識の精度はかなり高かったものの、「Alexaがやってくれることを声で指示する」、すなわち音声リモコン的な使い勝手になっていた。

その後の進歩で多少改善はしてきたが、いまだ「音声リモコン」的な印象は否めない。

それに対してAlexa＋は生成AIベースになったので、「会話を自然な形で理解して応答する」ことが軸になった。だから「命令を与える」だけでなく、声で対話しながらやりたいことを絞り込んでいける。そのあたりの変化は、以前の記事にも掲載した、発表会でのデモ映像をみるとわかりやすい。

「Alexa＋」を使い、ピザレストランのお勧めを聞くデモ

では、Alexa＋は「話す」ことを目的に作られたのか？

そこは少し違うようだ。

フレスコ氏は次のように説明する。

フレスコ氏(以下敬称略)：技術の変化にとにかく対応することが優先……と考えていたわけではないように思います。

私たちは10年前から、「Alexaを世界最高のパーソナルアシスタントにする」という明確なビジョンを持っていました。

しかし技術の進歩が、前提をすべて変えてしまったんです。

今回も我々は「世界最高のパーソナルアシスタンスを構築したい」と考えていました。役に立つ、パーソナライズされたものを作ろうと考えた訳です。これまでもそのことを考えていたのですが、技術の変化によって、それを本当に実現することが可能になりました。

すなわち、Alexaをパーソナルアシスタントとして進化させることが目的であるのは変わらないが、基盤となるAIの側が変化し、トレンド自体が変わってきたために、「目的を達成する」ことを優先し、基盤となるところからすべてを作り直したということなのだろう。

実のところ、Alexa＋で実現されている機能や要素の開発は、かなり以前から行なわれていた。

2023年の秋、AmazonはAlexaを介して生成AIとチャットする「Alexa Chat」の導入計画を発表している。

2023年に発表された「Alexa Chat」。だがこれは結局日の目を見なかった

しかしこちらも、結局のところ導入されなかった。おそらくは、「単にチャットすることはAlexaの目的とはずれていた」し、発表後の反応も芳しくなかったからだろう。

さらに野心的なことは、それより前から進行していた。以下に、2019年に筆者が取材した記事を示す。

この記事の後半で「Alexa Conversation」という技術が説明されているが、ここでは「ある夜に良い映画が上映されているかどうかを捜してもらい、さらに、その前のディナーと移動のためのライドシェアを予約する」というデモが行なわれている。

2019年に公開された「Alexa Conversation」。チケットを予約する、という行為に紐づくものをエージェント的に利用者へ提案する構想だった

この技術は結局、完全な形でオリジナルのAlexaに搭載されることはなかった。理由はさだかではないが、様々な課題が解決できなかったのだろう。

1つの疑問は、Alexa＋の開発がいつ頃からスタートしたのか？という点だ。

米Amazonのデバイス担当バイスプレジデントであるダニエル・ラウシュ氏をデモ会場で見つけ、「Alexa＋はいつ、どのように作られたのか」という質問をした。

米Amazon デバイス担当バイスプレジデントであるダニエル・ラウシュ氏。写真は発表会の壇上デモより

するとラウシュ氏は以下のように答えている。

ラウシュ：以前から(生成AIを使う)プロジェクト自体はありました。しかしそれはかなり小さなもので、相当に時間がかかっていたんです。

1年以上前にそれを少し発表しましたが、その後、現在の非常に大きなプロジェクトへと変化し、公開に至りました。

これは、2019年から開発していたものと、2023年に発表された「Alexa Chat」などを指すのだろう。すなわち、Alexa＋へのシフトチェンジは意外なほど最近のことであり、1年ほどの間で一気呵成に組み上げられたものではないか……という予測が浮かぶ。

フレスコ氏も、以前からの改善計画との関係について、次のようにコメントしている。

フレスコ：挙げていただいたマイルストーンを追っていくと、それがAI技術の進化をトレースするような形であるのがわかるはずです。

2019年の話がありましたね。5、6年前の話なのに、永遠の時が流れたよう。もはや古代の歴史のようです。

どんな技術でなにが可能になるのか、という点について、業界全体の理解は、過去数年間で非常に急速に進化しました。私たちは多くのことを学び、学んだことをすべてこの製品に応用したのです。

結果として、Alexa＋は「完全に初めから作る」(フレスコ氏)ことになった……ということなのだろう。

Alexa＋のリニューアル点。新規開発だからこその変化だという

基盤の上で「複数のAIモデル」を活用

では、Alexa＋はどんな生成AIを使っているのだろうか？

答えは「複数」ということになる。

AlexaはAmazonの持つクラウドインフラで運営されている。それは今も昔も変わらない。

生成AIについて、Amazonのクラウドインフラ部門であるAWS(Amazon Web Services)はいくつもの技術を持っている。

中核となるのが「Amazon Bedrock」という生成AI基盤サービスだ。

Amazonのアンディ・ジャシーCEOが「Amazon Bedrock」を説明。複数の基盤モデルを共存させる「土台」のような存在だ

これはGPT-4などの基盤モデルそのものではない。生成AIの基盤モデルを動かすための土台、と言っていい。サービスを構築する側はBedrockの上に「使いたい基盤モデル」を載せ、それぞれのサービスに合わせたカスタマイズを行ない、さらにアプリケーションの形にしていく。

Alexa＋もBedrockを使っていて、さらにその上に複数の基盤モデルを載せて併用している。

その1つが、Amazon独自の基盤モデルである「Amazon Nova」だ。こちらは昨年12月にAWSのイベントで発表されたもので、詳細はこちらの記事をごらんいただきたい。対話の他に画像・動画・音声生成などのモデルもある。

Alexa＋で使うAI基盤モデルの軸となる「Amazon Nova」

さらにAmazonは「Claude」を提供するAnthropicとも提携しており、Alexa＋でも利用している。

発表会ではこの2つがフォーカスされたが、実際にはもっと使っているようだ。発表会後のデモ会場でAmazonの担当者に質問したところ、次のような答えが返ってきた。

「複数を切り替えながら使っている。例えばAmazonでのショッピングに関する回答はRufasが担当している」

Rufasとは、先日からAmazonのショッピングサイトに組み込まれた生成AI。顧客レビューをまとめたり、チャットで商品に関する質問に答えたりしている。Alexa＋は当然Amazonでのショッピングにも対応しているので、その時には「中の人」がRufasになっている、ということなのだろう。

Alexa＋においてAmazonでの買物について聞く場合にはRufasが使われるという

この点についてフレスコ氏は次のように説明する。

フレスコ：現状、どの基盤モデルも「すべてにおいて優秀」なわけではありません。それぞれ得意分野分野があります。

私たちは世界最高のパーソナルアシスタントを作りたいので、複数のモデルを使用しています。最も効率的に、最も速く、最も優れたサービスを提供できるモデルを選択するアーキテクチャを構築しました。その中で、主にNovaとClaudeを使用しているんです。

逆にいえば、こうした構造になったことで、日々進化する生成AIの基盤モデルへの対応が容易になったとも言える。今後しばらくはサービス全体を大幅に書き換える事なく、基盤モデルの入れ替えで賢さ・自然さを高めていけると推察できる。

「パーソナルアシスタント」に重要なものとはなにか

AmazonはAlexaの狙いについて「パーソナルアシスタント」という言葉を使う。これはどういうことだろうか？

フレスコ氏は「重要なのはパーソナライズだ」と話す。

フレスコ：我々は匿名の誰かと話すものを作りたかったわけではなく、あなたにとって便利なものを作りたいと考えていました。

どんな製品を使っているのか、なにが好きでなにが嫌いなのかなど、具体的なことを言ったらそれを覚えて置いて、ユーザー体験全体にパーソナライズされた情報を反映させたい、と考えました。

それらの情報はAlexaが使うAmazonのアカウントに記録されるが、「プライバシーには最大限の注意を払っている」という。

覚えている情報はWebから確認できて、いつでも削除できる。これは現在のAlexaにもある要素で、それが発展的に利用される。そして、一度覚えた好みなどは「明示的に変更しない限り、アカウントが残っている間永続的に覚えている」(フレスコ氏)という。

そして、パーソナライズという点で重要なのは、「多様な周辺機器やサービスと連携する」ということだ。

Alexaはすでに多数のスマートホーム機器とつながる。サービスとの連携もある。忘れがちだが、好きな音楽サービスや映像配信と連携できることも重要だ。

サービスがリニューアルされる時には、時折こうした「これまで使っていた要素」との互換性が失われ、使えなくなる事がある。それは別の言い方をすれば、「パーソナライズして使っていた要素が失われる」ということでもある。

しかしAlexa＋は、Alexaに対応していた周辺機器やサービスがほとんどそのまま使えて、対話でのインタラクションがより柔軟になる。

従来Alexaで動いていた周辺機器やサービスはそのまま利用可能

Alexa対応機器自身も、多くの既存製品が使える

これは非常に大きなことだ。

フレスコ氏は「アーキテクチャ構築上、非常に重要な要素だった」と語る。

フレスコ：いままで使えていたものはそのまま動くことは優先事項でした。

オリジナルAlexaでの10年間で、「ゆっくりと多くの製品やサービスをAlexaに対応させる」こと自体がハードワークであることを、非常によく分かっていました。

ですから(Alexa＋で)互換性維持をあきらめたくはありませんでした。

そこで、アーキテクチャに両面性を持たせました。

デベロッパー側への要件は(Alexa+になっても)変わりません。ですから、いままでの機器は同じように動き続けます。

しかし、ユーザーが使う場合には、LLMと蓄積されたパーソナルデータを使って動作し、体験が大きく変わるのです。

ただ新しい可能性を追求するには、Alexa＋向けの要素を付け加えるべきではないか、とも考える。その点についてもフレスコ氏は同意し、「いくつかのベンダーとともに実験を始めている」と話す。基本路線は「過去踏襲」であっても、少しずつ追加要素を入れていくということなのだろう。

なお、少し切り口が違う話だが、「Alexa＋を使える環境」が拡がることも重要だ。

従来はAlexa対応機器とスマホアプリが軸だったが、今後はPCのWebブラウザから「alexa.com」にアクセスして使うこともできる。この点については、「PCのブラウザを使っている人へも間口を広げたかったので拡張している」(フレスコ氏)とのことだ。

PCのみで使える劇的な機能追加があったわけではない、とのことだが、PCとAlexaの関係が近くなるのは、多くの人にとって「プラス」であるのは間違いない。

情報ソースと「Web情報活用」で価値拡大

もう一つ、パーソナライズという要素でいえば、Alexa＋からアクセス可能な情報が劇的に増えたことも大きい。

生成AIになったから賢く、大量の知識が使えるようになる……と考えるのは間違いだ。結局のところ、「良い情報ソースを使う」「生成AIがWebを検索する」などの工夫がなければ、価値を高めるのは難しい。

Alexa＋はそうしたトレンドをちゃんとカバーしている。

情報の面については多数のメディアパートナーと提携、それらを使ってユーザーとの対話を行なう。

多くのメディアパートナーと連携、情報の信憑性と量を担保する

特に料理のレシピの場合には面白いこともしている。

レシピが示す素材の中で、自分が持っていない調味料があったとする。例えば(アメリカなので)醤油がない、としよう。特定の食材が苦手、というパターンでもいい。Alexa＋に「醤油がないので代替手段はない？」と聞くと、ちゃんと同じような料理で醤油を使わないソースのレシピに変えて教えてくれる。

すなわちこれは、生成AIがレシピの内容を理解し、ユーザーの指示にあわせてカスタマイズしている、ということだ。

Amazonはパートナーからレシピ情報の提供を受けているそうなのだが、その理由は、こうした柔軟な「レシピの改変」に対応するためでもあるという。十分な情報と知見のあるレシピ情報を元にすることで、相談しながら中身を変えられるわけだ。

また、ユーザーからの相談に応えて企業や店舗をピックアップする場合には、Alexa専用のサービスからだけでなく、一般的なWebからも情報を集めてまとめ直す。いかにも「生成AI時代のサービス」っぽい。

以下の写真でEcho Showの中には、ハウスクリーニング業者の情報が出ている。だがこれは一般のWebからAlexa＋がまとめなおしたものだ。一見するとAlexaの専用サービスのように見える。

表示されている事業者の情報は、その会社のWebに記載されているものをAlexa＋がまとめなおしたものだ

フレスコ：今回私たちは、Web連携機能を一から構築しました。

私たちと連携するサービスプロバイダーの中にはAPIを持っているものがあり、APIがあればそのレベルで統合できますが、そうでない場合は制限される可能性がありました。

しかし、それは望ましくありません。

そこで、実際に内部で仮想Webブラウザを実行し、仮想ブラウザでサービスプロバイダーのWeb UIを実行し、Alexaに結果を通知できるシステムを作成しました。

この仕組みを私たちは「エージェント機能」と呼んでいて、エージェント機能を活かすためのSDKも用意されています。

このことは、これまでのSkillや連携サービスという縛りから離れるには重要なことでもある。ユーザー目線でいえば、数万のサービスと機器に対応していても、目的のものが含まれていなければ意味がないし、問いかけてみて「すみません、それはできません」と言われるのは落胆につながる。

Webを使うエージェント機能があっても「できません」「わかりません」はあるのだろうが、それでも、かなりその頻度が下がることが期待できる。

日本ではいつ使えるようになるのか

最後に「日本で使えるようになる時期」について考えてみよう。

現状Amazonは、日本語を含む「アメリカ英語以外への対応時期」を明確にしていない。ただし、日本語を含めた多国語対応は進めていると明言しており、使えるようになることだけは間違いない。

重要なのは「それがいつになるのか」ということだ。

フレスコ氏も時期を明確にはしなかったが、考え方を次のように解説した。

フレスコ：言語理解については、生成AIがベースなので間違いなく楽になるでしょう。すでに複数のモデルを内蔵しています。

しかし、サービス構築は言語理解だけで作れるものではありません。その国で人気のサービスはなにか、現地の優先事項はなにか、といったことを理解することも必要です。

オリジナルのAlexaで得られたのは、「体験とは言語だけでなくサービスを理解し、国を理解することだ」という点です。

他国でサービスを立ち上げる時期の決定は、これらすべて考慮に入れての判断になります。

Alexa＋はチャットボットではない。パーソナライズやサービスの有無など、多様な要素が絡む。だからこそ、「日本語を理解する」だけではダメで、日本向けのサービスとして必要なものを備えることが必要なのだ。

だとすれば、「いままでよりは日本語化までの時間は短くなるものの、再来月にもすぐに……という話ではない」ということになるのだろう。

西田宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、AERA、週刊東洋経済、週刊現代、GetNavi、モノマガジンなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。近著に、「生成AIの核心」 (ＮＨＫ出版新書)、「メタバース×ビジネス革命」( SBクリエイティブ)、「デジタルトランスフォーメーションで何が起きるのか」(講談社)などがある。
　メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Xは@mnishi41