グーグルのクラウドを支えるテクノロジー > 第135回 PaLM:Pathwaysによる大規模な自然言語モデルの学習例

CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー > 第135回 PaLM:Pathwaysによる大規模な自然言語モデルの学習例」を公開しました。

###

はじめに
 今回は、2022年に公開された論文「PaLM: Scaling Language Modeling with Pathways」を元にして、大規模な自然言語モデル「PaLM」を複数のTPU Podから構成されるPathwaysの分散学習インフラで学習した事例を紹介します。

Pathwaysの分散学習インフラによる学習処理の実証実験
 第133回〜第134回の記事では、Googleのエンジニアが開発した、機械学習モデルの新しい分散学習インフラ「Pathways」について解説しました。その中で、機械学習モデルとしてのPathwaysと分散学習インフラとしてのPathwaysの違いについて次のように説明しました。

・機械学習モデルとしてのPathways:さまざまな役割を持つ「ブロック」を相互接続することで、複数のタスクに対応した機械学習モデルを構成するという考え方

・分散学習インフラとしてのPathways:複数のTPU Podを疎結合した分散学習インフラ

 分散学習インフラとしてのPathwaysは、将来的に「機械学習モデルとしてのPathways」、すなわち、複数のタスクに対応した多数のブロックから構成される機械学習モデルの学習に役立つと期待されていますが、現時点では、実際にそのようなモデルが完成しているわけではありません。しかしながら、この新しい分散学習インフラには、従来の機械学習モデルを学習する上でも、複数のTPU Podを利用できるという点で有用性があるはずです。そこで、冒頭の論文では、この観点での実証実験の1つとして、従来型の自然言語モデルをPathwaysの分散学習インフラを用いて学習しています。具体的には、6,144個のTPUチップを用いて、5,400億個のパラメーターを持つモデルの学習に成功しています。この後で紹介するように、論文の中では、「Few-shot learning」と呼ばれる自然言語モデルに特有のタスクにおける興味深い結果が紹介されています。

この続きは以下をご覧ください
リンク

本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]