ハイテク企業があらゆるものに人工知能(AI)を搭載することをこぞって発表し、Appleが2024年に向けて初の仮想現実(VR)/拡張現実(AR)ヘッドセットを準備する中、Metaが開発者向けのConnectカンファレンスで発表した最新のニュースは、両方の分野にまたがるものだった。ある意味、発表された製品は単純明快で、グラフィックを強化した新しい「Meta Quest 3」と、改良されたカメラを搭載し音声に対応するRay-Banブランドのスマートグラスだ。Metaはまた、一連のパーソナリティー主導型AIチャットボットと、画像生成モデル「Emu」も発表した。
筆者はOculusがMetaに買収される前から、VRとARに関するMetaの動きを追っており、2022年には同社の研究所を訪れ、未来がどこに向かうのかについて兆候を探った。しかし、2023年も終盤に入り、私たちが「VR」や「スマートグラス」として認識するようになった製品は、これまで以上に変貌を遂げつつあるようだ。Quest 3は、Appleの「Vision Pro」に似た複合現実(MR)機能を備え、時にはVRデバイスの形をしたARグラスのように感じられる。新型スマートグラスは、2024年には物体を認識しテキストを翻訳するAIが搭載され、画面のないバージョンの「Google Glass」や初期のARグラスの試作品のように機能するようになるだろう。また、Qualcommによる最新世代のより強力なチップのおかげで、いずれも会話型AIなど多くのことを実行できるはずだ。
MetaがVR、AR、AIをどのように融合させていくのかを知るため、同社の最高技術責任者(CTO)兼製品責任者であるAndrew Bosworth氏に未来について聞いた。
以下の会話は、分かりやすさと分量のために少し編集されている。
--MetaのQuest 3、スマートグラス、AIはどのような関係にあるのでしょうか。
私たちが長年思い描いてきたARのアーキテクチャーを四角と矢印の図で表すなら、四角の1つはAIかもしれません(笑い)。この業界では、能動的に動かない限り、問題を解決してくれる技術が向こうからやってくることはめったにありません。しかし(AIに関しては)、これが現実になった格好です。
もし2年前、いや1年前だったとしても、私や(Meta Reality Labsのチーフサイエンティスト)Michael AbrashにARの実用化を阻む最大のリスクは何かとたずねていたら、ディスプレイやレンダリングと同じくらい、AIがネックだと答えていたでしょう。私たちは、ユーザーと同じものを見、同じものを聞くことができる、常識を備えたインターフェースを待ち望んできました。しかし私たちには、これを実現するための能力が十分になく、それが問題となっていました。
(先日発表した「Meta AI」には)大いに期待しています。この技術は、私たちの問題を根底から解決してくれました。この問題の解決には、もっと時間がかかると思っていました。AIは以前からMetaのビジョンにとって不可欠の存在でしたが、今や実際に活用できるものとなったのです。
--Metaは人間の視界を共有できるAIアシスタント搭載のスマートグラスを実現すると約束してきました。来る2024年には、Ray-Ban関連で新たな動きが期待できますか。
現在は電力の観点から、スマートグラスを使う際は起動が必要です。しかし、いずれAIを起動させるトリガーとなるイベントを検知できる低電力型のセンサーが登場するでしょう。現在は、そのための開発に励んでいるところです。しかし、こうしたセンサーやイベントの検知に取り組んではいるものの、解決策はまだ見つかっていません。これは、私たちがかつて「コンダクター」と呼んでいた、タイミングをはかる技術です。例えば私とあなたは今、対面で話をしているので、(将来のARグラスに搭載されるであろう)インターフェースは外すべきでしょう。妻から送られてきた買い物リストも、今は表示しなくてよさそうです。しかし子供が体調を崩し、すぐに私の助けが必要だというメッセージはポップアップ表示させたい。こうした見極めをどうすれば実現できるのでしょうか。
MetaのRay-Banブランドのスマートグラスは、第1世代から第2世代へと進化し、その過程で私たちは多くのことを学びました。進化は2つの面で見られました。まずハードウェア面では、性能を高める一方、コストを抑えられるようになりました。ソフトウェア面では、AIに関する重要な問題を解決しつつあります。
--こうしたAIグラスに搭載されるのは個性を持つAIですか、それとも汎用的なアシスタントですか。
Meta AIはエージェントタイプのAIです。未来のAIは、「エージェント」タイプと、いわゆる「パーソナルアシスタント」タイプの2種類に分かれると思います。エージェントタイプのAIは、個別のユーザーとは切り離された独自の存在であり、そこにユーザーがアクセスして、やりとりを行います。
一方、ARグラスは私と視界を共有しています。私が送った私的なメッセージも、アクセスしたウェブサイトも、このAIには丸見えです。でも、それは私が望むことでもある。そうすることでARグラスの助けを受けられるようになるからです。これは素晴らしいことです。ARグラスはプライベートで機密性の高いものでなければなりません。つまり、「口の堅さ」が求められます。
プラグインを使えば、こうしたARグラスはユーザーに代わって予約を入れることもできます。メッセージの返信も安心して任せられます。しかし、この種のARグラスは私に属するもの、私だけのエージェントでなければなりません。それに対して、Meta AIは汎用エージェントであり、一般的なことを質問できる存在です。まずはここから始める予定ですが、AR環境では最終的に、きわめてパーソナルなAIアシスタントが活躍することになると思います。この種のAIアシスタントは、現在のARグラスよりもずっと記憶容量が大きく、学習能力も、ユーザーの解像度も高く、そして驚くほど思慮深い存在となっているでしょう。
--Quest 3は、MRが普及する足がかりとなる製品のように思えます。しかし(先日発表された)「オーグメント」のようなウィジェット機能はまだ始まったばかりで、これから進化していくことになります。Quest 3は今後どのように発展していくと思いますか。
「(Oculus)Rift」が登場した時は、VR空間を移動する方法を誰も知らなかったことを人々は忘れています。こうした基本的なことでさえ、当時は誰も知らなかったのです。あるゲームがすごい仕組みを思いつくと、他のゲームも後追いを始め、ユーザーも学び始めます。こうして誰もがその仕組みを学習してしまうと、もう難しいものではなくなります。
(MRの)魅力をどう捉えるかは人それぞれです。Metaでも色々な取り組みを進めていますが、まだ可能性の半分も把握できていないと思います。今後は開発チームによって、新しい刺激的な発見がどんどんなされていくでしょう。もちろん、MRには先進的な面もあります。Quest 2用ゲームの1つに「First Encounters」というものがあります。周囲の壁が崩れ、エイリアンが襲ってくるゲームですが、ある意味では古典的なゲームです。このように、MRの中には私たちがよく知っているものをクールにしただけのものもあるのです。これはすぐに利用できる価値ですが、その後も続々とオーグメントが追加される予定です。
この取り組みを私たちが今、始めることが重要である理由はいくつかあります。1つは、こうした取り組みがいずれARのエコシステムを形成することになるからです。長い道のりになるでしょうが、始めるのに早すぎることはありません。
--人気のVRリズムゲーム「Beat Saber」には、なぜまだ(Quest 3で利用できる)MR版がないのですか。MRにぴったりのゲームだと思うのですが。VRフィットネスアプリの「Supernatural」についても同様です。
MR版のBeat Saberについては社内でも検討しましたが、実現は想像以上に大変でした。このゲームでは、画面の奥からたくさんのキューブがこちらに向かって流れてきます。背景が真っ暗であれば、飛んでくるキューブを目で認識できます。この「真っ暗」という点が、意識しているよりもずっと重要なのです。明るい環境では、飛んでくるキューブをなかなか認識できなくなる可能性があります。つまり何が言いたいかというと、このゲームはドラッグ&ドロップでMR環境に移植できるものではなく、思っているよりずっと繊細で微妙な調整が求められるということです。重要なのは始めること、行動し続けることです。その理由は、先ほども言ったように、開発チームがなるべく早く作業に着手できるようにするためです。
--コントローラーが不要になる日が近づいていると思いますか。(Quest 3では)コントローラーを使わない場面も増えるのでしょうか。
引き続き、その可能性はあると考えています。大きな理由の1つは、人々がソーシャルな環境で過ごす時間が増えていることです。(VR環境では)大半の時間がソーシャルサービスに費やされます。ここにはコントローラーを使うソーシャルゲームも含まれますが、すべてではありません。問題は、なくてもできるかではありません。できることは間違いないからです。しかし現在のところ、コントローラーが必要な人気コンテンツが多いことは確かです。
手でできることが十分に増え、手だけで製品の実用性を確保できるようになれば、コントローラーが欲しい人はオプションで購入するという形をとることで、便利なデバイスをリーズナブルな価格で提供できるようになります。私たちは常にそこを目指しています。
--視線トラッキングについてお聞きします。この機能は(Quest 3にはないが)「Quest Pro」やAppleの「Vision Pro」、ソニーの「PlayStation VR2」には搭載されています。Questプラットフォームのインターフェースについて、どう考えていますか。
私自身は、今後も会議にはQuest Proを使うと思います。視線トラッキングやフェイストラッキングを重宝しているからです。入力インターフェースとしての視線トラッキングや視線と手を組み合わせたトラッキングには、何年も前から取り組んできました。視線トラッキングを搭載するとハードウェアのコストが上がり、複雑さも高まります。片目あたり最低2台のカメラが必要になり、内部照明も欠かせません。AppleのVision Proは美しいデバイスですが、内部照明を採用しており、光がレンズを通して入ってきます。そのためメガネは使用できず、視力補正用のインサートレンズが必要になります。
視線トラッキングはいずれコアプラットフォームの一部となるでしょう。優れたツールだと思いますが、会社にとっての問題は常に費用対効果です。何をとって、何を捨てるか。Metaがリーチしようとしている平均的な消費者は、果たして視線トラッキングに対応することで増える重さ、価格、発熱、バッテリー消費量に価値を見出すかを考えなければなりません。
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」