西田宗千佳のRandomTracking

第585回

アップルは新AI技術で「スマホの写真・動画管理」を劇的に変える

西田宗千佳

2024年6月12日 14:00

アップル本社内で開かれた基調講演には、多くの開発者とプレス関係者が詰めかけた

今年のWWDCといえばApple Vision Pro……ではなく、明確に「アップルとAIの年」だ。

アップルは新AI群「Apple Intelligence」に関を発表

一方で、AIをスマホやPCに組み込んでいくというやり方は、多くのビッグテックとの競争でもある。「アップルが遅れていた」というのは単純な見方でありすぎるのだが、他方で「アップルがどんな利便性を消費者に提供しようとしているか」について、見通しづらい部分もあるだろう。

というわけで2本目のレポートでは、アップルがAIでなにをやろうとしているのか、という話題である。

Apple Intelligenceで実現する機能をすべて解説していくと膨大な文字量が必要になる。だからここでは、特にオーディオ・ビジュアル周り、すなわち「動画と写真」に軸を通して説明していきたい。

Apple Intelligenceで実現される機能群。なかなか盛りだくさんだ

そこから、Apple Intelligenceがどういう特徴を持っていて、どう使い方を変える可能性があるかを理解することができるからだ。

Apple Intelligenceと「普通のAI」は共存

多くのニュースが出ているのでご存知かと思うが、アップルは「Apple Intelligence」と呼ぶAI機能群を開発、今年の夏からテスト公開の形で自社製品に組み込んでいく。最初は英語版からで、日本語を含む他言語は2025年以降となるので、多くの人が触れるにはまだしばらくかかる模様だ。

一方で、新OS群におけるAI関連機能がみんなApple Intelligenceかというとそうでもない。どうしても「OSの新機能」でざっくり語られがちなので、その辺は多少見えづらくはある。

基本的には「生成AIっぽい要素」が絡むものはApple Intelligenceであり、そうでないものはOSの新機能である。

これは機能が高度に見えるかどうか、という話とはちょっと違う。

例えばiPadOS18には、ペンで手書きした文字を学習し、タイプする文字も自分の手書きっぽいスタイルにする「Smart Script」という機能がある。

Smart Scriptで、ペンで書いた文字から「自分の手書きスタイル」でタイプし、文字列として修正も行なえるようになる

さらに、新しく搭載された「計算機」アプリはこれとも連動する。手書きで数式などを書いていくとSmart Scriptで整理され、その内容が計算され、さらにグラフ化までしてくれる。一部の数字や数式を書き換えた場合、その内容に合わせて再計算とグラフの書き換えもしてくれる。

「計算機」アプリでは手書きで数式を書いて整理・計算し、さらにグラフ化などまで行なえる

これらは今回WWDCの基調講演で公開された新機能の中でも特に「すごい」と言われるものの1つだが、これらはApple Intelligenceでなく他の要素で動作している。

現状、Apple Intelligenceは「Mシリーズ搭載のMacとiPad」と、「A17 Proを搭載したiPhone 15 Proシリーズ」にのみ対応し、それ以外とは動作条件が異なる。

アップルの思想として「ユーザーは機能が働くことを求めているのであって技術ではない」という部分はあるのだろうが、今は「すぐ提供される一般的なAI」とApple Intelligenceが分かれているのは事実。Apple Intelligenceの提供開始までには時間がかかることから、「OSアップデートですぐに提供されるAI」とは分けているのだろう。

ただおそらく長期的には、すべてのアップル製品のAIが「Apple Intelligence」というブランドで管理されていくことになるのではないだろうか。

写真や動画の“見つけ方”が変わる

というわけで、その一例として、「写真」アプリの変更を見ていこう。

前述のように「OSなどのアップデートだけで、日本国内ですぐに提供される」AI機能と、その先で利用可能になるApple Intelligenceで実現される要素は分かれている。

まず、レイアウトなどの構成が大きく変わり、写真を見る楽しみが増えた。ここでの表示でもAIは使われているが、これはOSのアップデートそのものに含まれる。

新しい「写真（Photos）」アプリ

その上でApple Intelligenceで行なえるのは主に3つの機能になる。

まず「編集」。現在も写真の色味を変えたりトリミングしたりできるが、さらに「特定のオブジェクトを消す」機能が使えるようになる。GoogleがPixelなどで展開している「消しゴムマジック」に近い。いかにも生成AIっぽい使い方だ。アップルは「Image Wand」と呼んでいる。

次に検索。

いままでも簡単な単語や位置情報から写真を検索できたが、この能力が大幅に上昇する。

例えば「山登りをしている時」といった、写真に写っている内容を理解する必要があるようなものでも、文章や声などで見つけられるようになる。

動画の場合には、サムネイルだけでなく「動画の中に含まれる内容」も検索対象だ。「あのワンシーンが含まれる動画」を見つけられるようになると言うことだ。

さらにこの検索技術を使い、写真や動画をまとめて視聴する「メモリー」機能も強化される。

Apple Intelligenceを使った「メモリー」機能。写真・動画が詳しい自然文で検索してまとめられる

「山登りをしている時のもの。最後はセルフィーでまとめる」といったフレーズを入力すると、関連する写真・動画をライブラリ全体から関連するものを検索し、見やすい形にまとめ、さらに音楽もつけて再生してくれる。機能の狙いとしては変わらないが、今まで以上に「思い出をうまくまとめる」ものとして期待できるものになりそうだ。

Apple Intelligenceはプライバシー最優先

こうしたことができるようになるのは、Apple Intelligenceによる「画像・映像の理解」が行なわれ、検索用のインデックスとしてハードウエアの中に蓄積されるためだ。

画像の中身を生成AI解析して写っているものを把握して文章にするとか、写っているものの輪郭を抽出して変種に使う、ということは、今や難しいものではない。

ただ、多くの場合、生成AIはクラウド上で動いている。

その結果として、情報がクラウドに残ることになる。写真もプライベートな情報だが、その中に何が写っているかという「インデックス情報」はプライバシーを煮詰めたような、万が一にでも漏れては困るものと言える。またそもそも、数万件を超えるような写真すべてをクラウドにアップロードし、AIでインデックス化するのも難しい。

だがApple Intelligenceの場合、2つの層で処理して「自分が持つ写真すべての検索インデックス化」を実現する。

まず、Apple Intelligenceは「個人が利用するデバイス内での動作とインデックスの蓄積」に特化している。基本的には、iPhoneやMacなどのデバイス内で処理され、インデックス情報もそのデバイスの中にある。

Apple Intelligenceはデバイス内に閉じることでプライバシーを守る

理由は、前出のようにプライバシーを守るためだ。インデックスデータ全体は自分の持つデバイス同士ですら共有されず、デバイスの中から出ていかない。すなわち、iPhoneとMacを持っていたとしても、インデックス自体は別々で、同じ情報がコピーされることはない。

じゃあiPhoneとMacを持っている人は同じようにApple Intelligenceを使えないのか、というとそうではない。

「写真」にしろ「iMessage」にしろ「メール」にしろ、アップル製品で使われる情報の多くは、iCloudを使って各デバイス間で共有されている。インデックスは出ていかずコピーされないものの、同じデータと同じAIを使ってインデックスを作ることになるので結果は概ね似たもの、すなわち「自分に合わせて作られた情報」になる……という立て付けなのだ。

プライバシー重視と「必要な時だけクラウド活用」を両立

Apple Intelligenceは複数のAIモデルを使うが、その中でも最大のものは、約30億パラメータという規模のものだ。

昨今PCやスマホで動き始めているオンデバイスAIは、20億から70億パラメータのものが中心なので、サイズ自体は妥当だ。性能評価は色々あるだろうが、ここでは触れない。

重要なのは、Apple Intelligenceの場合、ローカルモデルで足りなければ「クラウドも使う」という点だ。

「クラウドはプライバシー上問題、と言ったことと矛盾するじゃないか」

その指摘はごもっとも。

アップルはここで、自社サーバー内で「デバイスが必要になった時だけ生成AIの演算力を供給する」技術である「Private Cloud Compute」を使う。

Private Cloud Computeは、名前の通りプライベートな演算力として用意されるもの。デバイス内のApple Intelligenceがより高い性能を必要とした場合、処理に必要なデータだけを匿名化して送信、クラウド側で処理して結果を返す。そして、一時的に使った情報は速やかに削除する。

クラウドでのAI処理も使うが、プライバシー維持のための原則を守って「プライベートに一時利用」するシステムを使う

プライバシー保護を目的にオンデバイスAIを使う流れは増えているが、課題は「デバイスのAI処理能力」にある。高価なハイエンドプロセッサー搭載製品であっても、少なくとも現状、クラウドで動く巨大なモデルを前提とした生成AIほどの効率は発揮できない。

しかしアップルの場合には、「処理後にデータを使い捨てる」前提かつ、その処理を担保する仕組みを備えたPrivate Cloud Computeを用意することで、オンデバイスの良さとクラウドの良さを兼ね備えたシステムを作ろうとしているのである。

これは非常に賢い仕組みだ。

重ねて言うが、こうしたシステムであったとしても、そこでの実効性能がどうなるかはまだわからない。アップルによる技術資料は公開されているが、その妥当性や実力のチェックはこれから進んでいく。

とはいえ、日々蓄積されていく「写真と動画」を処理するアプローチとして、Apple Intelligenceが採った方法論は非常に興味深く、有用であると感じる。

サービスだけを提供しているのでも、デバイスだけを提供しているのでもないアップルだからやりやすい「垂直統合型ソリューション」といえそうだ。

ハイエンドWindowsゲームがMacだけでなくiPadやiPhoneにも

最後にゲームについても少し語っておきたい。

昨年アップルは、Windows向けのゲームをMacに移植しやすくする「Game Porting Toolkit(GPTK)」を発表している。今年はそれが改良され、より移植しやすくなったという。

「Game Porting Toolkit(GPTK)」を継続強化

今回GPTKは、MacだけでなくiPhoneやiPadへの移植にも対応した。これらの3製品は、OSやプロセッサーの構造に似通った部分があるので、GPTKを使ってゲームの移植が可能になるということのようだ。

Windows用ゲームをiPhoneやiPadでも動作可能にしていく

11月15日に発売予定の大型タイトル「アサシンクリードシャドウズ」(Ubisoft)は、Windows PC・PlayStation 5・Xboxの他にMac版も同時発売とされてきたが、今回の基調講演で、新しいGPTKを使い、iPad(Mシリーズ搭載モデル)にも対応することが発表された。

GPTKの利用はまだ多いわけではないが、アップルとしてはUbisoftなどの大手とも協力し、アップルプラットフォーム向けのゲーム増加を目指すものと思われる。

11月発売の「アサシンクリードシャドウズ」（Ubisoft、写真中央）を含む多くのタイトルが遊べる、とアップルは強調する

西田宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、AERA、週刊東洋経済、週刊現代、GetNavi、モノマガジンなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。近著に、「生成AIの核心」 (ＮＨＫ出版新書)、「メタバース×ビジネス革命」( SBクリエイティブ)、「デジタルトランスフォーメーションで何が起きるのか」(講談社)などがある。
　メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Xは@mnishi41