スマートフォンのカメラで撮影した“モノ”の情報を教えてくれる「Googleレンズ」。同プロダクトを支える技術や今後の機能発展についてGoogleは10月8日に説明会を実施。GoogleレンズプロダクトマネージャーのLouWang氏が解説した。
Googleレンズは身の回りのものや見ているものを、最新のコンピュータービジョンテクノロジーとAIを活用して検索できるサービス。商品や動植物を調べたり、似たような画像の検索ができたりするほか、画像に表示されているテキストを読み取ってコピー&ペーストすることも可能だ。アプリはAndroid/iOSに対応しており、カメラアプリのほかにもGoogleフォト、Google検索、Googleアシスタントなど各種Googleサービス活用できる。
Googleレンズでは、「Classfication(分類)」「Detection(検出)」「Enbedding(分散表現)」「Model Training(モデルトレーニング)」の4つの技術が使われている。
Classfication(分類)とは画像の中にどのようなものが映っているのか、ラベルを張っていく作業だ。Googleレンズはこれまで数百万もの画像を利用して学習しており、莫大な量のラベルのデータを保有している。画像に映されたものにラベルを貼ると同時に、そのラベル付けの精度がどれほど正しいか算出して数値で表すことが可能だ。検索結果の精度向上を実現するという。
Detection(検出)はラベル付けされたオブジェクトが、画像のどこにあるかを検出するプロセス。Googleレンズの方からユーザーに「ここに面白いものがあるよ」と提案したり、オブジェクトをタップして検索したりできるのもこの技術のおかげだ。
Enbedding(分散表現)は、画像の特徴をベクトルで表現することで、他の画像とどれくらい似ているか算出する技術である。人が画像の特徴を直感的に把握するのと似たプロセスを採用しており、効果的に検索したり、似ている画像を探したりすることを可能にしている。
Model Training(モデルトレーニング)は、機械学習のために開発されたハードウェア「Tensor Processing Units(TPU)」によって実行される。これまで複数の処理装置を使って数日間、長ければ数ヶ月かかっていた学習プロセスが、TPUの登場で数時間程度で済むようになったという。
Googleレンズの仕組みについて説明した後は、Googleレンズによって何ができるのか紹介された。最も一般的な使い方は身近にあるものを検索することだ。近くにあっても実は名前も知らないものは意外に多いもの。それらにカメラを向けるだけで、名前だけでなく詳細について知ることもできる。
また旅行に行った際には、ランドマークにカメラを向ければ、その特徴や歴史についてもすぐに分かる。Googleレンズは分散表現の技術を用いて、さまざまなシーンで画像を分析し検索できるようにしている。さらにGoogleレンズはショッピングにも有効的だ。欲しいアイテムを見つけた時に、Googleレンズを向ければ、ショッピングサイトまで連れて行ってくれる。
そして最も重要視されている使い方が、画像の中のテキストを読む能力。画像の中の文字をスキャンして、翻訳することもできればコピーすることもできる。場合によっては次のアクションを提案してくれるだろう。例えば名刺をスキャンすれば、その中にある電話番号を読み取り、そのまま電話をかけることも可能だ。
テキストを読み込む機能に限り、ローエンドスマホ向けのOS「Android Go」にも組み込まれた。これまでハイエンドスマホでしか使えなかったGoogleレンズを、より多くの人に使ってもらうためだ。なぜテキストを読む機能を組み込んだかというと、ローエンドスマホがよく使われるインドのような新興国での事情が要因である。新興国ではまだ適切な教育を受けられないために、識字率が低い。字が読めない人でもGoogleレンズを使って、言葉を理解してもらうためにテキストを読み込む機能を組み込んだのだ。
生活を便利にしてくれるGoogleレンズだが、セキュリティへの配慮も欠かさない。Googleレンズで分析する画像の中には、個人情報が含まれる可能性もある。そのような大事な情報が悪用されないために、GoogleはGoogleレンズで利用された画像は一切保存しない。また、個人の顔やセンシティブなものに関しては検知しないよう設定されている。
他にも悪意を持った人間がGoogleレンズを使うのを防ぐため、スタッフ自らが悪用する方法を考え、同時にも対策を練っている。さまざまな悪用方法をシミュレーションしながら対策を考え、安心してGoogleレンズを使ってもらえるよう進化させていく予定だ。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」