動画から顔や動作を認識する「Amazon Rekognition Video」--深層学習を活用

Asha McLean （CNET News）翻訳校正：佐藤卓長谷睦（ガリレオ）2017年11月30日 12時05分

　動画に映っている人が誰なのかを特定できる世界が現実となった。「Amazon Rekognition Video」のおかげだ。この新しい動画分析サービスを利用すると、膨大な数の物体や顔やコンテンツを動画から検出し、追跡、認識、抽出、管理できる。

　このサービスは、2016年にリリースされた画像分析サービス「Amazon Rekognition」がベースになっている。Amazon Rekognitionは、Amazonの「プライム・フォト」で毎日数十億件の画像を分析するために使われているのと同じ技術をもとにした、深層学習ニューラルネットワークを利用して開発されている。

　Amazon Rekognition Videoは、米国時間11月29日、Amazon Web Service（AWS）がラスベガスで開催中の「AWS re:Invent 2017」で発表された。その檀上で、AWSの最高責任者（CEO）を務めるAndy Jassy氏は、この新しい動画分析サービスを使えば、ウェブサイト上の不適切なコンテンツを見つけ出すこともできると、その性能を誇った。

提供：AWS

　このAmazon Rekognition Videoは、現時点でも有名人の画像を識別できるが、さらに継続的に学習を続ける能力を持っている。

　また、この新機能では深層学習を用いて動きを解析し、動画の中で行われている行為についてより正確な情報を抽出できる。たとえば、動画に人物、車、木が映っていることを認識するだけでなく、その人物が車に向かって走っているといった推論もできるのだ。

　AWSはこの日、動画をクラウドにアップロードする「Amazon Kinesis Video Streams」も発表した。このサービスを使えば、動画や音声などの時系列にエンコードされたデータを膨大な数のカメラ系デバイスから取り込むことができるため、ユーザーはインフラを自ら構築、運用する必要がなくなる。

　Jassy氏はさらに、話の内容を自動で書き起こすサービス「Amazon Transcribe」も披露した。これは長文に対応した自動音声認識機能を持つという。

　Jassy氏によれば、Amazon Transcribeを利用すると、動画の中で話されている文章を文法的に正しい文章に書き起こすことができるという。このサービスは当初、英語とスペイン語に対応する。

　さらに、今回のAWS re:Inventでは、ニューラル機械翻訳技術を活用して高い正確性でテキストを翻訳できる「Amazon Translate」も発表された。

　そのほかにも、Jassy氏はフルマネージドの自然言語処理（NLP）サービス「Amazon Comprehend」を発表した。このサービスを使えば、ドキュメントやソーシャルネットワークへの投稿など、さまざまなコンテンツを分析し、きわめて正確な情報を抽出できるという。

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

CNET Japanの記事を毎朝メールでまとめ読み（無料）