オムロン サイニックエックス、機械学習分野における主要国際会議「ICML2023」に3件の共著論文が採択

オムロン サイニックエックス株式会社(本社:東京都文京区、代表取締役社長:諏訪正樹、以下 OSX)は、機械学習分野に関する主要国際会議「International Conference on Machine Learning (以下、ICML) 2023」に、シニアリサーチャーの小津野将らの共著論文3件が採択されました。本成果の詳細は、7月23日よりハワイ・ホノルルで開催される同国際会議にて発表されます。

「ICML」は「NeurIPS*1」とならび、機械学習などの分野において国際的に権威のある主要国際会議の一つです。2023年は約5,000件の投稿の中から、27.9%の論文が採択されています。
*1:Neural Information Processing Systems

今回の研究論文は、強化学習の効率化および高速性をともなった性能改善のための数学的なアプローチを実施し、その効果を成果としてまとめています。今後もOSXでは、大学や社外研究機関との連携を通じた技術革新による価値創出に取り組んでいきます

<採択された論文内容>
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice


発表日時:2023/07/25 14:00(現地時間)
著者:
Toshinori Kitamura*1、Tadashi Kozuno*2、Yunhao Tang*3、Nino Vieillard*4、Michal Valko*3、Wenhao Yang*5、Jincheng Mei*4、Pierre Menard*6、Mohammad Gheshlaghi Azar*3、
Remi Munos*3、Olivier Pietquin*4、Matthieu Geist*4、Csaba Szepesvari*7,3、Wataru Kumagai*1、 Yutaka Matsuo*1
*1:The University of Tokyo、*2:OSX、*3:Google DeepMind、*4:Google Research, Brain team、*5:Peking University、*6:Otto von Guericke University Magdeburg、*7:University of Alberta
研究背景:
Kullback-Leibler (以下 KL) 擬距離やエントロピーを用いた正則化は、最近の強化学習アルゴリズムにおいて重要な役割を果たしています。例えば、探索の促進や価値推定誤差に対する頑健性、性能の単調的向上保証などが可能です。一方、Mirror Descent Value Iteration (以下 MDVI)はKL擬距離とエントロピー正則化の両者を方策評価と方策更新に組み込んだ手法であり、関数近似を用いない場合には強化学習において最適なサンプル効率を達成することが知られています。
本研究では、関数近似が必要となる状況においても最適なサンプル効率を達成できる手法を提案しました。
提案手法:
関数近似が必要となる状況では最小二乗法を用いるのが一般的です。しかし、最小二乗法は誤差の分散を考慮することが出来ません。一方、強化学習においては価値関数推定誤差の分散を考慮することが最適サンプル効率性を満たすために必要であることが分かっています。そこで、MDVIに分散重み付き最小二乗法を組み合わせることで、関数近似を用いる場合でも最適サンプル効率を達成することを可能とした、Variance-Weighted Least-Squares MDVI (以下 VWLS-MDVI)を提案しました。そして、VWLS-MDVIに深層学習を用いて実装することで、より実用的な形Deep Variance Weightingを実現しました。
今後:
本研究では、環境が線形マルコフ決定過程で表されるという仮定を設定しています。これは理論解析でよく用いられる仮定ですが、比較的強い仮定です。より弱い仮定の下でも最適な学習効率が満たされるかについてさらなる研究を実施していきます。

DoMo-AC: Doubly Multi-step Off-policy Actor-Critic Algorithm


発表日時:2023/07/25 17:00(現地時間)
著者:
Yunhao Tang*1、Tadashi Kozuno*2、Mark Rowland*1、Anna Harutyunyan*1、Remi Munos*1、Bernardo Avila Pires*1、Michal Valko*1
*1:Google DeepMind、*2:OSX
研究背景:
強化学習手法は方策評価と評価値に基づいた方策更新を交互に繰り返します。方策評価と更新時に現在の方策に従ったデータしか使えない手法をオン方策学習、そうでないものをオフ方策学習と呼びます。オフ方策学習はこれまで蓄積してきたデータを用いて学習できるため、学習効率の向上に重要であると考えられています。

これらの分類とは別に、シングルステップ学習とマルチステップ学習という分類があります。方策評価や方策更新時に各時刻の行動とその直後の結果のみを用いる場合はシングルステップ学習と呼ばれ、連続した複数時刻の行動とその結果を用いる場合をマルチステップ学習と呼びます。実験的には、マルチステップ学習が性能の向上に有効であることが知られています。

しかしながら、マルチステップ学習を方策更新に用いるこれまでの手法はオン方策学習に限られていました。本研究では、強化学習手法のさらなる改善を目指し、方策評価と方策更新の両者においてオフ方策かつマルチステップな学習手法である DoMo-VIとDoMo-AC を提案しました。
提案手法:
提案手法のDoMo-VIは、マルチステップ方策改善とマルチステップ方策評価を組み合わせた動的計画法アルゴリズムとすることで、最適な方策に既存手法より高速に収束することを保証できました。DoMo-ACはDoMo-VIをより深層学習に活用しやすい方法で実装したものです。
分散型深層強化学習アルゴリズムであるIMPALAを基にDoMo-ACを実装し、Atari-57(*)というベンチマークタスクで実験しました。
(*):Atari-57はAtari2600の57種類のゲームからなるベンチマークタスクで、強化学習手法の性能を調べるためによく使われています。
DoMo-ACはIMPALAと比較して安定した性能の改善が得られました。また、方策評価と方策改善におけるマルチステップの度合いを調整するパラメータに対し、あまり鋭敏ではないことも示されました。これは実用的にも使いやすいことを示しています。
今後:
今後の課題として、例えばロボットの緻密な制御のように行動が連続的な場合でもDoMo-ACが高い性能を示すことができるかなど、さらなる研究を実施していきます。

Adapting to game trees in zero-sum imperfect information games


発表日時:2023/07/26 19:00(現地時間)
著者:
Côme Fiegel*1、Pierre MENARD*2、Tadashi Kozuno*3、Remi Munos*4, Vianney Perchet*1, 5、Michal Valko*5
*1:CREST, ENSAE, IP Paris、*2:ENS Lyon、*3:OSX、*4:Google DeepMind、*5:CRITEO AI Lab
研究背景:
この論文は二人零和不完全情報ゲーム(IIG)における学習に焦点を当てています。IIGは、各プレイヤーが現在のゲーム状態を部分的にしか観察できないゲームで、複雑な戦略的行動(例えばブラフ)をモデル化することができます。

IIGには2つの目標があります。第一の目標は、対戦相手に適応して最適な戦略を選ぶことです。しかし、対戦相手も戦略を変更するため、容易に計算することができません。もう一つの目標は、ナッシュ均衡の状態を目指すことです。ゲームの構造、遷移確率、報酬関数が事前に知られている場合にナッシュ均衡を計算する手法は存在しますが、計算コストが大きくあまり実用的ではありません。

本研究では、これら両者の目標を少ない計算量で達成する手法を提案しました。
提案手法:
本論文ではFollow the Regularized leader(FTRL)というよく知られた手法を基に、二つの手法を提案しました。

一つ目はBalanced FTRLです。 Balanced FTRL は事前にゲーム構造に関する知識を用いることで、最適なサンプル効率および性能を達成することができました。
二つ目はAdaptive FTRLです。こちらは Balanced FTRLに必要なゲーム構造に関する知識を推定しながら学習する手法で、ゲーム構造に関する知識を必要とせずにほぼ最適なサンプル効率および性能を達成可能です。

これらの性能を実際に検証したところ、Adaptive FTRLはBalanced FTRLとほぼ同等のパフォーマンスを示し、ゲーム構造に関する知識を必要としないためより実用的であることを確認しました。
今後:
今後は、最適なサンプル効率および性能を持つゲーム知識を要求しないアルゴリズムの提案、直接ナッシュ均衡を出力する手法の提案、関数近似を用いた場合にも最適な性能を持つアルゴリズムの提案を研究していきます。

オムロン サイニックエックス株式会社について
オムロン サイニックエックス株式会社は、オムロンの考える"近未来デザイン"を創出する戦略拠点です。「AI」「ロボティクス」「IoT」「センシング」など、幅広い領域の最先端技術のトップ人財が研究員として在籍し、社会的課題を解決するために、技術革新をベースに「ビジネスモデル」「技術戦略」「知財戦略」を統合し具体的な事業アーキテクチャに落とし込んだ"近未来デザイン"を創り出します。また、大学や社外研究機関との共同研究を通じて「近未来デザイン」の創出を加速していきます。詳細については、リンクをご参照ください。

プレスリリース提供:PR TIMES リンク

本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]