目が不自由なFacebookユーザーのために写真の内容を説明する機能がアップグレードされ、視覚に障害のないユーザーにも役立つ機能となった。
簡潔に説明すると、Facebookの人工知能(AI)技術は、写真に関する説明を視覚障害者に対して読み上げる際、名詞だけでなく動詞も使えるようになった。
Facebookの応用機械学習グループを率いるJoaquin Candela氏は、米国時間2月2日に投稿したブログ記事で次のように述べている。「最近まで、こうした説明文では写真に映っている物体しか説明していなかった。このほど12通りの動きを追加したので、『歩いている人』『踊っている人』『馬に乗っている人』『楽器を演奏している人』といった写真の説明ができるようになったことを、本日発表する」
この技術は、視覚障害者だけでなく、Facebookを毎日利用している12億3000万人のユーザーにも役立つ。「Googleフォト」と同様に、ユーザーが投稿時に写真についてテキストで入力した説明だけでなく、FacebookのAIによるコンテンツの判断も基にして、写真を検索できるようになるからだ。
Candela氏は、ニューヨークで開催されたカンファレンスMachine Learning @Scaleで、その仕組みを詳しく説明した。
FacebookのAIは、ニューラルネットワーク技術を利用しており、大量の演算処理トレーニングをするところから始まる。Facebookの画像検索機能に利用される物体認識のために、数千万枚の写真を使ってAIシステムがトレーニングされた。各写真にはあらかじめ人間が注釈を付けているので、AIシステムは、どういった画素パターンがどのような被写体に対応するのか学習できた。
説明読み上げ技術についても同様にトレーニングが行われたが、用いられた写真はもっと少なく、Facebookで共有された13万枚の公開写真だった。人間が各写真に注釈を付けているので、AIシステムは、どういう行動が写っているかを学習できた。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス