グーグル、映像を見せて「Gemini」と会話するAI機能を予告--Google I/O前日に

Kyle Kucharski (ZDNET.com) 翻訳校正: 編集部2024年05月14日 10時53分

 Googleは米国時間5月13日、年次開発者会議「Google I/O」を前に、ソーシャルメディア「X」で予告動画を公開し、「rabbit r1」の開発元が恐れをなすであろう新たなマルチモーダルAI機能を披露した。

会話の様子
提供:Google

 動画では、スマートフォンのカメラをGoogle I/Oのステージにかざし、「ここで何が起こっていると思う?」と問いかける。GoogleのAIモデル「Gemini」は、「人々が大きなイベント、おそらく会議かプレゼンテーションの準備をしているようです」と答える。そして、「特に目を引くものはありますか?」と自ら質問する。

 Geminiにステージ上の大きな文字(IとO)を見せて意味を尋ねると、GeminiはGoogle I/Oという開発者会議を示していると正しく特定した。この質問によってAIは背景情報を得ることができ、その結果、より有益な回答を提供できるようになったのだろう。その後、Geminiはさらに 「Google I/Oに参加したことがありますか?」と質問する。少なくとも動画では、会話は自然で難なく行われているように見える。

 rabbitは4月にrabbit r1のデモを実演した際、同様のマルチモーダルAI技術を披露し、多くの人から画期的な機能だと称賛された。Googleの予告動画は、同社がGemini向けに同様の機能を開発すべく懸命に取り組んできたことを示している。動画を見る限り、この機能はrabbit r1よりも優れている可能性がある。

 Googleとrabbitだけではない。OpenAIは13日にライブ配信したイベントで、「ChatGPT」に「見る、聞く、話す」機能を追加する最新のAIモデル「GPT-4o(オー)」などを発表した。デモでは、プレゼンターがスマートフォンのカメラを通して、手書きの数学の問題やプレゼンターの表情などさまざまなものをAIに見せ、AIは同様にユーザーとの会話を通じて、これらの物事を正しく識別した。

 目の前で披露されない他のデモと同様、今回の動画もうのみにすべきではない。それでも、GoogleがOpenAIのライブ配信のわずか1時間ほど前にこの動画をおそらく戦略的に公開したことは、同社が今週Geminiについてさらに多くを語るであろうことを示唆している。

この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

企画広告一覧

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]