前編に続いて、Googleが「Pixel」のカメラをテストするために使用しているラボの取材レポートをお届けする。
スマートフォンのカメラの内部でグリースが使われていることをご存じだろうか。カメラのレンズは、オートフォーカスのために前後に動くさまざまな部品で構成されている。グリースはレンズの部品の動きを滑らかにする潤滑剤として使用される。「Real World Testing Lab」には、普通の試験環境とは違う、また別のメリットがあることが分かった。チームは、実際の日常生活と同じようにスマートフォンを使うことができるのだ。具体的に言うと、寝かせて置かれたスマートフォンを手に取って、写真や動画を撮影することができる。
多くのユーザーは、スマートフォンをテーブルやカウンターに寝かせて置く。その結果、カメラのレンズ部品が本体の後方に来て、それらの部品のレールにグリースがたまっていく。その状態から、ユーザーがスマートフォンを手に取って写真や動画を撮影する場合、いくつかのことが起こる必要がある。レンズの部品が前方に移動しなければならないと同時に、たまったグリースにも対処しなければならない。
「希望の場所にフォーカスを合わせるためにレンズが動き出すとき、レール上のグリースはすべて、後方にたまっている。つまり、グリースとレンズを前方に押し出しているようなものだ」。「Pixel」カメラ担当グループプロダクトマネージャーを務めるIsaac Reynolds氏は、こう説明する。
GoogleはPixelに関して、本体をポケットの中に収めていた後でも、テーブルの上に寝かせて置いていた後でも、一貫したカメラ体験をユーザーに提供したいと考えている。
動画のオートフォーカスと露出に関しては、ほかにも考慮すべき問題がある。写真と違って、動画の撮影中には、被写体が動いたり、照明が変化したりする場合がある。スマートフォンは、露出とオートフォーカスの両方について、さまざまな判断を下さなければならない。色の正確さに対するGoogleのアプローチと同じように、単に技術的に正しいことと、ある瞬間の雰囲気や感覚をとらえた動画を撮影できることの間には、違いがある。
「露出やフォーカスなどが不安定なのは望ましくない。ユーザーが歩きながら、確実に、非常に安定した露出やフォーカスを使用できるようにしたい」とReynolds氏。「(ラボでは)照明条件も変えられるので、環境を制御しつつ場面に変化を加え、カメラが適切なフォーカスと露出をキープできるようにすることが可能だ」
Googleの2人の従業員が飲み物を選んでいたカフェのセットに話を戻そう。この場面では、ストリングライトやテーブルの上のキャンドルなど、さまざまな照明が混在している。Pixelは、肌の色に関係なく、両方の従業員にとって適切な露出を判断し、どこにフォーカスを当てるのかも選択しなければならない。
加えて、キャンドルの灯りがある。ロウソクの光に対処するのは、特に難しいようだ。
「ロウソクの光は極めて小さな点でありながら、信じられないほど明るい。さらに都合の悪いことに、ロウソクの光の動きとともに、部屋全体にさまざまな影ができる。ロウソクのちらつきが露出のちらつきを引き起こさないようにしなければならない。カメラを確実に安定させなければならないのだ」(Reynolds氏)
Pixelがオートフォーカスの処理や動画の適切な露出、照明の変化への対応をどのように行っているのかを示すため、チームはいくつかのデモを見せてくれた。われわれは、そのデモを、制御されたラボ環境だけでなく、Google本社の外にある「Halo Pavilion」でも見ることができた。
屋内でも屋外でも、その撮影のルーティーンは一連の流れが決められていた。エンジニアリング技術者が持つ装置に取り付けられた「Pixel 8 Pro」と「Pixel 7 Pro」の性能を試すことを目的とするものだ。被写体の人が歩いたり、頭を動かしたり、撮影中のPixelに手を近づけたりした。
写真には音声がないが、動画の場合は、音声が動画の質を大きく左右する。われわれは、快適なラボのカフェを離れて、リビングルームのセットに移動した。このセットには、快適な椅子でくつろぐマネキンも用意されていた。Pixelカメラ担当プロダクトマネージャーを務めるKevin Fu氏は、動画の音声に対するチームのアプローチを説明してくれた。
長年、音声を改善する一般的な方法は、周波数チューニングを使用するというものだった。風の強い屋外で話している人の動画を撮影する場合、その人の言葉が聞き取りにくくなることもある。
「例えば、風の音を除去したいときは、『周波数を微調整して、できるだけ風の音を拾わないようにしよう』と言っていた。だが、話し声も周波数が低い」と、Fu氏は説明する。
周波数チューニングは画一的なアプローチであり、理想的な結果が得られることはほとんどない。例えば、風の音を下げようとすると、人間の声の聞こえ方が変わってしまうからだ。そこで、Fu氏とチームは、人の話し声を識別するAIモデルの訓練に注力した。
「その話し声を識別できれば、音声に含まれる話し声の部分を保存し、それ以外を小さくすることができる」(Fu氏)
Fu氏は、歩きながら自撮り動画を撮影している自身の音声クリップを再生してくれた。最初のバージョンは、カメラで撮影された生のデータであり、音質を向上する処理は何も施されていない。この動画でも、Fu氏の話し声は聞こえるものの、周囲の騒音も同じくらい大きいので、同氏の話している言葉をすべて聞き取るのは難しい。次に、Fu氏は、同じ動画にGoogleの音声拡張機能を適用したものを再生してくれた。周囲の騒音が低減され、Fu氏の話し声が明瞭でしっかりと聞こえるものになっていた。
筆者はスマートフォンのカメラについて、かなり詳しいと自負していた。だが、GoogleのReal World Testing Labで数時間過ごしたことで、Pixelのカメラを微調整するために、実際にどれほどの努力が注ぎ込まれているかが分かった。Real World Testing Labは、筆者が予想していたものとは全く違っていたが、Googleがこのラボをどのように利用しているのかを見て、その意義を完全に理解できた。
「動画ブースト」などの機能は、目を見張るような成果をもたらしており、今後のPixelスマートフォンにおける動画の方向性を示しているように思える。そう思った理由は、動画ブーストが現時点ではPixel 8 Proでしか利用できないからだ。Googleが将来登場するPixelスマートフォンでこの機能をどのように扱うのか、そして、その処理がデバイス上で実行されるようになるのかどうかに注目したい。
筆者にとって、この見学のハイライトは間違いなく、Pixelでの動画撮影に対するチームのアプローチを教えてもらった部分だ。理論的な正確さと人間の主観のバランスを取るのがいかに難しいかを示している。スマートフォンのカメラは今や、私たちが周囲の世界を見る窓になっているので、これは重要なことだ。
「ハードウェアを作るときは、来る週も来る週も、さまざまなプロトタイプや工場出荷版すべてをテストして、ハードウェアが適切に動作するか確認しなければならない」とReynolds氏。「一度だけ確認して、いつまでも正常に機能することを願うだけ、というわけにはいかない」
この記事は海外Red Ventures発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」