> >

グーグルのAI、3Dサッカーゲームに挑戦--研究成果は検索結果の向上にも応用可能

Liam Tung （Special to ZDNET.com）翻訳校正：佐藤卓吉武稔夫（ガリレオ）2016年06月21日 12時37分

　GoogleのDeepMindチームの人工知能（AI）は、Atariのさまざまな2Dゲームをマスターしたり、囲碁で人間に完勝したりしたのに続き、今度は新しい3Dゲームやパズルゲームにチャレンジすることになった。

　DeepMindのAIエージェントが挑むことになった新しいゲームの1つは、「Ant Soccer」（アリのサッカー）と呼ばれるもので、ボールを追いかけ、ドリブルしてゴールを決める方法を学習した。

　このAIの素晴らしい点は、DeepMindのDavid Silver氏がブログの投稿で説明しているように、「動きのパターンをあらかじめ学習していなくても」アリのサッカーの問題を解決できることにある。これは、強化学習（Reinforcement Learning：RL）、つまり試行錯誤による学習における最近の進歩を反映したものだ。

　こうした成果を得るために、DeepMindは、ニューラルネットワークのディープラーニング（深層学習）と同チームが開発した「Deep Q-Network」（DQN）をRLと組み合わせた。DQNは、ボットが経験したことを蓄積し、特定の動作を行ったときに得られる結果を推測するアルゴリズムだ。

　AIが「Atari 2600」のさまざまな2Dゲームをマスターできたのは、まさにこのアルゴリズムのおかげだった。だが、Silver氏によれば、このアルゴリズムのはるかに優れたバージョンが開発されたという。

　新しいバージョンでは、たとえば1つのニューラルネットワークを訓練して、複数のAtariのゲームを学習させることが可能になった。この手法は、Googleのレコメンド機能を強化するのにも利用されている。

　「われわれは『Gorila』の名で知られる大規模分散型の深層RLシステムも構築しているが、これは『Google Cloud』プラットフォームを活用することでトレーニング時間を大幅に短縮できるため、Google内のレコメンドシステムに応用できる」とSilver氏は記している。

　ただし、サッカーのやり方を学ぶ能力は、DeepMindが新たに開発した「Asynchronous Advantage Actor-Critic（A3C）」アルゴリズムによるものだ。Googleが先週公開した論文の改訂版によると、A3Cは標準的なマルチコアCPUを使い、GPUベースのアルゴリズムを上回るレベルで、視覚情報を頼りに運動制御の問題やランダムな3D迷路の問題を解くことができたという。

　「（A3Cは）DQNの数分の1のトレーニング時間で、かつGorilaの数分の1のリソース消費量で素晴らしい成果を上げてくれる」とSilver氏は述べている。

　DeepMindは、「Labyrinth」と名付けられた「3Dナビゲーションとパズル問題の要素を持つチャレンジングな環境」でこのアルゴリズムをテストしている。Silver氏によれば、A3Cのエージェントは、視覚的な手がかりのみを利用して地形を理解し、報酬を「見つけたり利用したり」するという。

　「驚くべきことに、A3Cのアルゴリズムは、多くのLabyrinth問題で、最初から人間並みの成果を見せている」とSilver氏は述べている。