画像を解析して、人間が尋ねそうな質問に答えられるように機械を訓練できるシステムをMicrosoft Researchとカーネギーメロン大学(CMU)のチームが開発した。
人工知能(AI)ツール開発におけるMicrosoftの最新の取り組みは、「画像質問応答」と呼ばれる分野に焦点を合わせている。その狙いは、所定の画像の内容に関する自然言語の質問に自動的に応答することだ。
「自転車のかごの中に何が入っているか」という質問に答えるには、多段階の思考を経る必要がある、とCMUとMicrosoft Researchの研究者たちは述べた。
システムは、「まず質問の中で言及されている物体(例えば、かごや自転車)と概念(例えば、中に入っている)を認識し、その後、関係のない物体を徐々に除外していき、最後に最も可能性が高そうな部分を特定して答え(すなわち、この例では犬)を導き出す」と彼らは指摘した。
画像質問応答における多段階の思考という難題に対するMicrosoftの回答が「Stack Attention Networks」である。Stack Attention Networksは、画像へのキャプション付けや機械翻訳といった難題の解決に使用されてきた「注意機構」に対して、多層的なアプローチをとっている。研究者たちは、そのモデルの仕組みに関する詳細な解説を用意している。
Microsoftは「画期的な進展」の可能性を見出している。その進展は、リアルタイムのレコメンド情報を必要として、人間のニーズを予測するという新しい用途につながる。例えば、ヘルメットにマウントされたカメラに搭載可能なサイクリスト向け警告システムなどが考えられる。
そのシステムは、「自分の背後の左側には何があるか」「自分を左側から追い越そうとしている自転車はないか」「自分の視界に入らないおそれのあるランナーは近くにいないか」といった質問を絶えず自らに尋ね続けるだろう、とMicrosoft Researchはブログの中で指摘する。
狙いは、人間の行動をモデル化して、さまざまな問題を解決することだ。導き出された答えは提案として翻訳され、音声合成器を通してサイクリストに伝えられる。答えには、事故を避けるための指示が含まれる可能性もある。
Microsoftは自動運転車には言及していないが、先頃、自動運転技術に関してVolvoと提携することを遠回しに発表している。Stack Attention Networksは両社の提携にも恩恵をもたらすかもしれない。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
「程よく明るい」照明がオフィスにもたらす
業務生産性の向上への意外な効果
住環境に求められる「安心、安全、快適」
を可視化するための“ものさし”とは?
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」