間もなく登場から1年を迎えるGoogleの対話型AIツール「Bard」が、さらにアップグレードされた。
最初の頃のレビューを見ると、回答があまり人間らしくなかったこともあって、Bardは競合するチャットボットに後れを取っていた。その後、GoogleがAIモデル「Gemini」を組み込んだこともあり、Bardはテキスト以外に動画、音声、写真なども学習するようになった。そして今、生成AIの人気が続く中、有用性をさらに向上させようとしている。
Bardのプロダクト責任者を務めるJack Krawczyk氏は2月1日付けのブログ記事で、アップデートされた画像生成モデル「Imagen 2」により、Bardを使って無料で画像を生成できるようになったことを明らかにした。現在は英語に対応している。
「create an image of a hot air balloon flying over the mountains at sunset(夕暮れの中、山々を越えて飛ぶ熱気球の画像を作成して)」のようにプロンプトを入力すると、Googleの言う「アイデアに命を吹き込む、指示に沿ったさまざまな画像」をBardが生成する。
ただし、しばらく(13秒ほど)時間がかかる。
また、われわれが試した指示は、ほとんどの場合適切な画像や反応が返ってきたが、満足度100%とまではいかなかった。
例えば、Bardの最新アップデートに関するニュース記事のための画像を作るように頼んだところ、画像の生成を断られた。また、シンプルに「Google Bard」の画像を頼んだ時には、金髪のサイボーグの画像を生成した。
Googleによると、Bardは自らが生成した画像と人間の手による元の作品を区別できるようにするため、「SynthID」技術を備えており、AI生成画像のピクセルには透かしが埋め込まれるという。これをテストするために、ボッティチェリの名画「ヴィーナスの誕生」の画像を生成するよう指示してみた。すると複製画が生成されたが、かなり雑なものが出来上がった。顔や手など、あまりにひどい。ただし、法的な問題を報告するオプションと、画像が生成されるたびにその出来を親指アイコンで評価できるオプションが付いている。
人気歌手Taylor Swiftさんのディープフェイク画像が拡散された問題を受け、Googleは「暴力的、侮辱的、または性的に露骨なコンテンツ」を制限することに努めており、著名人の画像が生成されないようにするフィルターを適用していると述べた。実際、2024年のスーパーボウルで対戦するPatrick Mahomes選手とBrock Purdy選手がピクニックをしている画像や、Beyonceさんが銀行にいる画像の生成は拒否された。
勤務中の「Lisa Lacy」(筆者)の画像を生成するようBardに指示したところ、その人物に関する十分な情報がないため生成できないと回答された。ただし、仕事中のジャーナリストという、より一般的な画像は生成できた。
アリゾナ州とネバダ州の州境にある巨大なダム、フーバーダムでコインを投げ入れる男の画像の生成も拒否された。「フーバーダムに物を投げ入れる行為は禁止されている」からだ(代わりに景色や歴史的な描写の画像なら生成できるとのことだ)。
米独立宣言の署名のような歴史的瞬間の画像は、問題なく生成された。
Bardでは画像生成機能が追加されただけでなく、最新のAIモデル「Gemini Pro」が日本語を含む40以上の言語で利用できるようになった。Bardの回答を裏付けるコンテンツがウェブ上に存在するかどうかをユーザーが確認できるダブルチェック機能も、40以上の言語で利用できる。
Googleは、これにより230以上の国と地域でBardをさらに便利に使えるようになるとしている。
Googleの発表この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」