rabbit inc.の創設者で最高経営責任者(CEO)のJesse Lyu氏は、同社の最初の製品である「rabbit r1」を「Pokedex」(1990年代に米国で発売された玩具)になぞらえている。筆者は1日使っただけで、その理由が分かってきた。
Pokedexがポケモン(人気の高い同名の漫画やテレビゲーム、カードゲームシリーズに登場する生き物)を識別できるように、rabbit r1は周囲のさまざまなものを識別することが可能だ。カメラを植物の方に向けると、その種類を教えてくれる。昼食の方に向けると、使われている食材を教えてくれる。
Pokedexと同様、rabbit r1も現在のところ、少し目新しさを感じられる。rabbit r1は、コンパクトなサイズとシンプルなデザインにもかかわらず、さまざまなことができるそうだ。配車サービスの「Uber」を呼んだり、フードデリバリーサービスの「DoorDash」で夕食を注文したり、会話を翻訳したり、ボイスメモを録音したり、「Spotify」の楽曲を再生したりといったことが可能だ。こうしたことは、どれもすでにスマートフォンで可能だが、より素早く、より自然に行う手段としてLyu氏はrabbit r1を宣伝している。
私たちがデバイスと対話する方法を変えようとしている企業は、rabbitだけではない。人工知能(AI)とカメラを使って質問に答えてくれたり、作業を完了させるのを助けてくれたりするHumaneの「Ai Pin」という小型ガジェットもある。Ai Pinは、価格が高いことや機能が限定的であること、過熱しやすいことなどを評論家たちに批判された。Metaの「Ray-Ban Meta」スマートグラスもマルチモーダルAIを備えており、ユーザーが見ているものを「見て」、それについての情報をユーザーに提供することができる。
rabbit r1を使ってみた感想は、今のところ、楽しくて新鮮でおもしろい。だが、時にはイライラさせられることもある。興味をそそられるのは事実だが、自分の生活に新たなガジェットを導入する余地があると確信するには至っていない。
本記事では、rabbit r1を使った初日の感想をお届けする。
rabbit r1は、スマートフォンの約半分のサイズのハンドヘルド型デバイスだ。2.8インチの画面、操作用のスクロールホイール、800万画素のカメラ、128GBのストレージ、GPS、動作を感知するための加速度センサーとジャイロスコープセンサーを搭載する。
仕様だけ見ると、10年以上前のスマートフォンのように感じられるが、重要なのは、r1の内部にあるものだ。r1は、さまざまなアプリを備えた従来のOSではなく、同社が「Large Action Model」(大規模アクションモデル)と呼ぶ技術で動作する。これは、人間と同じようにデジタルサービスを使用するように訓練されたソフトウェアで、大規模言語モデルが会話形式で人間によって書かれたような回答を返すのとよく似ている。そのため、r1の操作はアプリやメニューをスワイプしたりスクロールしたりするのではなく、主に本体に話しかけることによって行う。ただし、Wi-Fiパスワードの入力などを行う必要があるときは、キーボードを使用する。
Lyu氏は、この「rabbit OS」の今後の展開について、壮大なビジョンを描いている。デモでは、フライトの検索を頼む、自分の好みを伝えるといった、簡単な文をいくつかr1に話しかけるだけで、Lyu氏は休暇に必要なほぼすべての予約を完了していた。リリースされたばかりの今、rabbit r1の機能はもっと限定的だ。現在できることの多くは、天気について尋ねる、Spotifyの楽曲を再生するなど、スマートフォンとあまり変わらないように感じる。
慣れるまでには少し時間がかかる。長年、タップやスワイプ、スクロールで操作していると、それ以外のことはほぼすべて、やり方を忘れてしまう。初めてのテクノロジー製品の使い方を覚えるのは、新鮮に感じられることもあれば、イライラすることもある。例えば、昨日の朝、筆者は家を出る前に、SpotifyでTaylor Swiftの楽曲を再生してほしいとr1に伝えた。正常に機能するか確かめることが目的だった。幸い、楽曲は問題なく再生された。しかし、再生を停止する方法が分からなかった。慌てて側面のボタンを何度か押すと、ようやく静かになった。
rabbit r1にはカメラが搭載されているが、これはスマートフォンのカメラで行われる一般的な用途を想定したものではない。このカメラは、写真を撮影するためのものではなく、周囲の世界について学ぶためのものだ。これまでのところ、精度はおおむねかなり高い。昼食時にサラダの方に向けると、大半の食材を教えてくれることはできた。
しかし、それは筆者の求めていた答えではない。何が入っているのかも知らずに料理を注文する人など、どこにいるのだろう。筆者は、昼食に含まれるカロリー量について、rabbit r1に尋ねてみた。求めていた答えは得られなかったが、その回答には感心させられた。
サラダのカロリー量は食材によって大きく異なるため、断定することはできない、というのがrabbit r1の回答だ。グリルチキンやレタス、トマトなどの健康的な食材には気づいたとのことだが、カロリー量を計算するには、食材とその量について、もっと詳しい情報が必要だそうだ。そして、カロリー量をもっと正確に知りたいのなら、栄養データベースを参照すべきだと提案された。最後に、カロリー量に「執着」せずに、「このような健康的な食事」を楽しむべきだとアドバイスしてくれた。
これは、正確な答えが分からないときにバーチャルアシスタントが返したメッセージとして、今までで最高のものかもしれない。「Siri」のように、単に「すみません、よくわかりません」と言うのではなく、rabbit r1は筆者の意図を理解して、可能な限りの情報を提示し、正確な答えを提供できない理由を教えてくれた。
全体的に見て、rabbit r1のビジュアル分析機能は、植物やポップカルチャーのキャラクターなどを識別するのには非常にうまく機能した。同僚のスニーカーについて説明してほしいと頼んだときは、ブランドを間違えていた。
こうした機能は新しいものではなく、rabbit r1にしかないわけでもない。スマートフォンでも、「Android」スマートフォンに搭載されているGoogleの「Gemini」アシスタント(「iPhone」の場合は、「Google」アプリのGeminiセクション)を通して、同じことをすでに実行可能だ。また、何年も前から提供されている「Googleレンズ」も思い出させる。
皆さんは、写真を撮影して何かを調べるために、Googleレンズを実際に使用することがどれだけあるだろうか。おそらく、あまりないのではないだろうか。目的が似ているように聞こえても、rabbit r1がスマートフォンと異なるように感じるのは、そのためだ。重要なのは、必ずしも使用目的ではなく、それを実行する方法である。良くも悪くも、rabbit r1はその手のマルチモーダルインタラクションをオプションの入力として提供するのではなく、設計によって強制している。
生成AIの台頭により、ビジュアル検索がさらに一般的になる可能性もあるが、rabbit以外の企業も間違いなくこの分野に進出してくるはずだ。
筆者はこれまで、rabbit r1を使って、ボイスメモを録音したり、音声をスペイン語から英語に翻訳したり、天気予報などについて簡単な質問をしたりした。これらの機能はおおむね期待通りに動作する。ユーザーが行った質問やビジュアル検索、そして、rabbit r1で接続しているサービス(Spotifyなど)はすべて「rabbithole」と呼ばれるオンラインハブに存在する。ユーザーは、rabbit r1をアクティベートするときにこのハブをセットアップする。
rabbit r1を使用した初日に、筆者はいくつかの問題にも気づいた。最も重大な問題は、作業を終了して、rabbit r1のホーム画面に戻りたいときに発生する。本体側面のボタンを押すとスタンバイモードになるはずだが、何も起こらないことも何度かあった。特にSpotifyを停止しようとしたときに、この問題がよく発生した。これが原因で、使用しているときに、何度かイライラさせられた。
バッテリーの消耗も信じられないほど速く、午前9時ごろに98%だったのが、午後1時41分には34%まで減っていた。午後に少し充電したにもかかわらず、午後5時ごろにオフィスを出る前に、バッテリー切れになってしまった。
rabbit r1この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」