西田宗千佳のRandomTracking

第554回

Apple Vision Pro「やばい」。掛け値なしに驚きの体験、実機レポート

今回の「One more thing」は近年なかったほど巨大なインパクトを持っていた

「One more thing」

アップルの発表で定番となった言葉だが、今回ほど、ティム・クックCEOによる「One more thing」の後が長かった発表はないように思う。

ご存知の通り、アップルの年次開発者会議「WWDC 2023」の中で、「Apple Vision Pro」が発表された。すでに写真だけは先にお届けしているが、ここでは、その後の取材で得られた結果を含む、より詳細なお話をお届けしよう。

ひとことで言えば、「やばい」。

ひどい語彙力だが、本当にそうなのだ。

Vision Pro実機

なお、実機体験中は、写真撮影や動画撮影が許可されなかった。記事中の写真は、別途行なわれた撮影セッションと、基調講演のものが中心である。

「目の前の風景」を自然に再現、3D映画・3D写真の体験に衝撃

まず、AV Watchなので画質とAV体験の話をしよう。

セットアップなどの準備が終わると、目の前には「自分がいる部屋」が見える。自然に、そこに「Vision Proをかぶる前に見えていた風景」がある。

よく見れば若干色は浅いし、視野の端は暗い。だがそれは「あえて言えば」くらい。びっくりするほど自然だ。

ホームを呼び出すために、本体右上にある「デジタルクラウン」を押すと、その部屋の空中に、アプリアイコンが浮かぶ。

基調講演でのデモ映像より。でも本当にこんな感じで、「目の前にあるはずの風景」がそのままに見える

VRに慣れている人だと、ここで操作のために、手を空中に上げたくなるだろう。

でもそれは不要。Vision Proがユーザーの視線の方向を認識しているので、選びたいアイコンを見て、指先をあてて「タップ」すればいい。視線を合わせるのに戸惑ったり、指を認識してくれないこともなかった。

映像体験として「アバター」の3D版を観ることができた。

「アバター」ではないが、ホームシアターのイメージとして。巨大で美しいスクリーンが空中に大写しになる

空中に、まるで「3Dの映画を掘り込んだ」ように巨大な映像が浮かび上がる。解像度も、輝度も、発色も自然。映画館とは違うが、圧倒的に自然な3D映像が観られる。

そこからちょっと操作すると、いままで見ていた「部屋」の風景はすべて消える。巨大なスクリーンのあるシアターに早変わりだ。ほの暗い中で、スクリーンに反射した光が床に広がる。

「Apple Immersive Video」も体験した。3D撮影で音声も空間オーディオ、自分を取り囲むように配置された映像である。

ビデオの冒頭で思わず笑ってしまった。音楽のセッションなのだが、目の前で歌うアーティストの吐息まで感じられるようだったからだ。もちろん、吐息が伝わる機能はない。そのくらい、映像と音声の品質が素晴らしく、実感をもって感じられてしまったからだ。

「写真」を見ると、こちらも自然だ。パノラマ写真も圧倒的な迫力なのだが、Vision Proで撮影された「空間再現写真」のリアリティがすごい。

Vision Proでは「空間再現写真」の撮影と視聴も可能

いわゆる3D写真・3D動画なのだが、陳腐な言葉になって恐縮だが「そこにいる」感が強い。バーベキューを撮影した動画があったのだが、自分もそこで参加しているようだった。

「多画面」も自然、周囲の人との対話も重視

空間には複数のアプリを、自分を取り囲むように配置できる。Vision Pro専用アプリでもいいし、iOSやiPadOSアプリでもいい。アプリ画面のサイズや位置は自由に変えられる。もちろん、Web表示の文字はきわめて鮮明だ。今のiPhoneやMacで文字を見ている時と、なんら遜色ない。アプリの画面が半透明なら、その後ろにいる担当者は「すりガラスの向こうにいる」ように感じられる。

これはデモビデオからの抜粋だが、文字などもこのイメージのようにしっかり高精細に感じられた
空間にアプリや3Dオブジェクトを自由に配置

仕事や映像に没入したいとする。そんな時はデジタルクラウンを回す。

すると、先ほどまでいた部屋の風景は、視野の周辺から、別の風景に変わっていく。

いっぱいまで回すと、部屋は完全に消える。山のなかに一人佇んでいた。耳をすますと、背後からは鳥の鳴き声なども聞こえてくる。

そのうち、左側に座って説明してくれていた担当者が声をかけてくる。

今度は、その担当者が「いるべき場所」がゆっくりと明るくなり、その人の姿が見えてくる。

反対側から話しかけられれば、今度はその位置にいる人の姿が見えてくる。

近くに来た人とコミュニケーションを取るための「EyeSight」。自然にその場所にいる人だけが見える

FaceTimeで通話をしてみよう。すると、出てきたのは「Persona」と呼ばれるアバター姿の担当者。Vision Proを使ってキャプチャした自分の姿で通話してきたのだ。彼女もVision Proをかぶったまま話しているのだが、会話も表情も、身振りも自然。髪型や服装などは再現されておらず、ぼんやりと見える程度だったのだが、ちゃんと「そこにいる」感覚があった。

Persona。自分の姿を機械学習で3D化、ビデオ通話などでアバターとして使う

iPhoneやMacなどで受信した場合、Vision Proからの通話はこのPersonaの姿になる。「ビデオ会議の時はVision Proを外して」ということにはならないのだ。

実景とCGの合成も自然、「ずれのないビデオシースルー」を実現

最後に、Vision Pro専用に作られたアプリを体験できた。

恐竜が3Dで空間に再現されるアプリだ。

人差し指を空間に差し出すと、そこに蝶が止まる。ピッタリと指の上に止まり、色々な角度から見てもほとんど位置がずれない。

そのうち、部屋の空中に、大きな窓のように「恐竜の世界」が見えてくる。恐竜に触れられるくらいまで、実際に歩いて行って眺める。荒さのない、非常にリアルな恐竜が実際に「そこにいる」。

恐竜に触れられるような3D体験も。自分の部屋の中で当たり前のようにできるところが素晴らしい

触ろうと手を伸ばすと、重要なことに気づく。

手の向こうがちゃんと「隠れる」のだ。いわゆる「オクルージョン」がちゃんと実現されている。

現実世界なら当たり前のことだが、CGの世界ではそうではない。手の位置を把握し、その向こうにある恐竜などとの位置関係を把握し、それらを矛盾なく扱えないと、このような表現は難しい。

デモが終わり、Vision Proをかけたまま、またソファまで戻る。

さらっと書いたが、これも大変なことだ。

自分がいる位置、前にある机、その上にある本やメガネなど、「実際にあるもの」が、違和感・矛盾なくその場に見えるから、自然に部屋の中を歩けるということなのだ。

当たり前のことに思えるが、「安全に家の中を歩き回れるビデオシースルーAR」はまだあまりない

あまりに自然なので忘れかけてしまうのだが、Vision Proに表示されているのは「Vision Proが生成されている画像」だ。周囲が透けて見えているわけではない。Vision Proが複数のカメラから取得した映像を合成し、あたかも肉眼で見ているかのような映像にしてくれているのだ。

視野角(FoV)はスペックとしては公開されていないものの、約90度。他のVR機器ほど広くはなくて、視野の狭さは感じる部分がある。だが、見えない部分をズバッと切り落としているわけではなく、ぼんやりと暗くしていくような処理が加えられているので、数字ほど体験は悪くない。

視野角の狭いARというと「現実世界に開いた穴の中だけ、現実とCGがミックスした世界」に見えることが多い。だがVision Proの場合には、ちゃんと「現実の中にCGがミックスされている」ように感じられる。

なにより重要なのは、ここまで挙げた内容が「デモとして作り込まれたものではない」ということ。

ARなどで、アプリとして色々体験を作って驚きを与えることは(難しさがあるが)十分可能だ。しかしVision Proは、これらすべての要素が「基本機能」として、すでに動く形で提供されている。

ここで挙げた要素の多くは、個々のVRアプリ・VR機器にはあったものも多い。だがVision Proの凄みは、それらをまとめて「より良い形で」「製品としていまにも使えるレベルで」実現してしまった、という点にある。

Vision Pro高画質の秘密を「ディスプレイ」「レンズ」から考察

Vision Proはなぜここまで高画質で体験が良いのか?

その背景については、基調講演の中でいくつかの情報が語られていた。ここではもう少し、デバイスの状況を含めて考察・解説してみよう。

HMDで使われるディスプレイには、機構と構造からいくつかのやり方がある。

VR向けのもので広く使われているのは、比較的面積が広い液晶もしくは有機ELを、大きなレンズで視野全体に広げるものだ。

例えば、Meta Quest 2のディスプレイは5.4インチの横長ディスプレイを中央で区切り、片目3.4インチ程度のサイズのものとして使っている。

以下はジャパンディスプレイが「この先のプロトタイプ」として、2022年6月に公開した資料からの抜粋だ。こちらも片目で2.88インチから2.27インチである。

参考までに。ジャパンディスプレイが2022年6月に公開した資料では、2.3インチから2.9インチ程度のパネルを使っていく想定になっている

大きなディスプレイ+レンズという組み合わせは、視界全体を覆うように画角(FoV)を広げやすい、という利点はあるし、コスト面でも有利だ。だからゲームには向いている。

しかし画素密度は下がりやすく、結果として画像の精細感が感じにくい。端的に言えば、文字を読むことなどには向かない。

ジャパンディスプレイがサイズを小さくしつつも解像度を上げているのは、FoVと解像感の両立を狙っているからだ。

解像感を高めるには、より画素密度が高いディスプレイを使う方法がある。具体的には、カメラのビューファインダーなどに使われてきた「マイクロディスプレイ」を活用する方法だ。

こちらはほとんどが1インチ以下で、その中に2K以上の画素を詰め込む。ビューファインダー向けだと1Kから2Kだが、AR/VR向けでは2Kを超えてきた。

代表例が、Shiftall/Panasonicの「MeganeX」。こちらでは、米・KopinのマイクロOLEDとパナソニック開発のレンズを組み合わせている。ディスプレイサイズは1.3インチで、片目2,560×2,560ドット。サイズがグッと小さくなるので、映像の緻密さは上がる。

一方、この方式にも難点はある。

小さなパネルをレンズで拡大することになると、小さなデバイスではFoVを大きくするのが難しい。

「Meta Quest 2」や「PlayStation VR2」のようなゲームでの没入感を重視した機器の場合、FoVは100度(Quest 2)・110度(PSVR2)と広めだが、マイクロOLED+パンケーキレンズの場合、そこまで広くするのはトレードオフが大きい、とされている。視野中央が狭くなり、快適に使うためのフィッティングも大変になりやすい。

そこで、高解像度と広いFoVを両立するデバイスは、割と「力技」で乗り越えてきた歴史がある。

中国・PimaxはFoVが広く解像度も高いHMDを出しているが、巨大なパネルを広いレンズで拡大するため、HMDが巨大なものになっている。

Pimax 8K X。サイズを大きくし、解像度とFoVをカバーする

産業向けに高解像度HMDを提供しているフィンランド・Varjo(ヴァルヨ)のHMDでは、解像度が必要な中央視野向けにマイクロOLEDを、そこまで解像度はいらない周辺視野向けには液晶を使う「組み合わせ技」で、現実に近い解像感を実現している。ただそのかわり、安価なもので3,200ドル、上位モデルで5,500ドルと高価だ。

Varjoの「XR-3」。解像度の高さとビデオシースルーが特徴で、Vision Proに似ているが、汎用というより企業ソリューション向け

ではVision Proは?

90度というFoVの狭さはあるが、画質と自然さでは、過去にHMD経由で見たものでは「最高級」と断言していい。もっとFoVが広いものもあったが、ここまでの解像感・自然さと併存していたものは他にない。

ディスプレイの素性を探る

Vision Proの詳細なスペックは公開されていないが、基調講演での言及から、スペックとしては「片眼4K以上・両眼で2,300万ピクセルの、ドットピッチ7.5μmのマイクロOLED」であることがわかっている。

基調講演での情報によれば、両眼で2,300万ピクセルのマイクロOLEDを採用

ということは、サイズとしては1インチ近傍で片眼4KのマイクロOLED……ということだろう。

マイクロOLEDへの投資は加熱しており、BOEをはじめとした中国勢が積極的だ。米Kopinは今年1月、VR/AR向けマイクロOLED開発部門を「Lightning Silicon Technology」として分社化している。

日本の場合、ジャパンディスプレイも開発を進めているが、一番進んでいるのはソニーだ。メインターゲットのビューファインダー向けはもちろん、「XREAL Air」のようなAR系グラスでもソニー製マイクロOLEDが使われている。

以下の写真は、2021年12月、ソニーが技術展示会「Sony Technology Day」で公開した、HMD向けマイクロOLEDだ。

ソニーが2021年12月に公開した、HMD向けのマイクロOLEDパネル。片眼4K前後の解像度で、サイズは1インチ程度。ということは……?

片眼4K前後で、形状はほぼ正方形に近い。当時詳細なスペックは公開されなかったが、写真に比較として写っている10円玉と比較すると、「おおむね1インチ程度」のサイズではないか、と判断できる。

筆者もこのデバイスを使った試作HMDを体験しているが、圧倒的なリアリティが実現されていた。発色・HDR・解像度の3点が揃っていたためだ。

2年前は「量産時期はまだ先」と開示されなかったが、「最終的には、一般消費者向けの製品を目指して開発に取り組んでいる」(ソニー担当者)とのコメントがあった。

もちろん正確な情報は得ていない。「このデバイスだ」と断言はできないのでご留意いただきたい。

だが少なくとも「スペック的にはこのくらいのものを使っているのだろう」と考えても良さそうだ。

アップルはなぜ「空間コンピューティング」を打ち出すのか

アップルはVision Proを「空間コンピューティング」のデバイスとして打ち出している。

前述のように素晴らしいAV体験を提供してきたのは、部屋に設置されたディスプレイから「空間を活かす」ことの可能性を示している。

本誌連載で何度も言及してきた流れだが、それを、今体験できる最高の形で見せてくれたと評価したい。

もちろん、その可能性は「卓上での作業」などにも関わる。

話だけだと「大きいディスプレイができるだけなんでしょ?」と感じそうだが、縛られていない自由さを感じる、新しい体験だ。

一方、アップルは明確に、空間の活用に絞ったデバイスを作ってきた。

「アップルがメタバースという言葉を使わなかった」のがニュースなどで話題になっているが、これは当然だ。メタバース=コミュニケーション・ワールドを、アップル自身が展開する意思がないからだろう。家族や友人という、比較的身近な領域はカバーするが、ネットの向こうの人々と体験を共有するところには踏み込んでいない。

Metaと比較すれば明確だ。MetaはSNSから「ネットの向こう」の人々との関係を重視しており、だからメタバースを1つの軸に据える。

これは良し悪しではなく「違い」だ。

Vision Pro向けにコミュニケーション・ワールドをサービスとして提供する企業は出てくるだろうが、アップルはそこに特化したデバイスにはしなかった。だが、他の企業がそこに配慮した製品を出したとしても不思議はない。

前出・Shiftallの「MenageX」は軽量で330g。米・Bigscreenが発売を予定しているPC接続専用のHMD「Bigscreen Beyond」は、127gしかない。一方、Vision Proは1ポンド程度(約453g)とされているので、かなり重量も違う。

127gと軽量な「Bigscreen Beyond」。PC接続専用で、Vision Proとは特質が大きく異なる

PC接続が必須なものとそうでないものでは、必要とする人が違ってくるだろう。

同様に、開発が進むVRゲームを楽しむなら、他のHMDをゲーム機として買った方がいいかもしれない。

ただ間違いなく、アップルは、AR/VRが持っていた「ベター・ディスプレイ」「空間活用」という領域で、今までにないレベルの体験を作ってしまった。

1つ1つは過去にも提案されていたが、隔絶した体験で明確な「基準」を作っている。

ここは大きい。

スマートフォンが生まれて、音楽プレイヤーやカメラなど単体機器のニーズは減った。高級モデルを除くと、スマホに巻き取られてしまったわけだ。

今回アップルは、「世の中にあるディスプレイがあるもの全部」を巻き取りにきた。極論すれば、スマホ・PC・テレビ・ホームシアターなど、すべてが1台で済む世界も視野に入る。

まだまだ改善が必要な部分はもちろんある。価格も課題だ。頭にかぶるよりは個々の機器で……という時代はまだ続くだろう。

だが少なくともAV機器を選ぶとき、ホームシアターなどと同格のものとして空間ディスプレイ的なアプローチを考慮すべき時代がやってきつつあるのは強く感じる。

「平面のディスプレイを空中に置く」世界の先には、「立体表示のディスプレイを空中に置く」世界があり、さらに「立体を情報として使う」時代があるのだ。

西田 宗千佳

1971年福井県生まれ。フリージャーナリスト。得意ジャンルは、パソコン・デジタルAV・家電、そしてネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。朝日新聞、読売新聞、日本経済新聞、週刊朝日、AERA、週刊東洋経済、GetNavi、デジモノステーションなどに寄稿する他、テレビ番組・雑誌などの監修も手がける。
 近著に、「顧客を売り場へ直送する」「漂流するソニーのDNAプレイステーションで世界と戦った男たち」(講談社)、「電子書籍革命の真実未来の本 本のミライ」(エンターブレイン)、「ソニーとアップル」(朝日新聞出版)、「スマートテレビ」(KADOKAWA)などがある。
 メールマガジン「小寺・西田の『マンデーランチビュッフェ』」を小寺信良氏と共同で配信中。 Twitterは@mnishi41