LINE、36億パラメータの日本語言語モデルをオープンソースで公開--商用利用可

 LINEは8月14日、同社のNLP Foundation Devチームが日本語言語モデル「japanese-large-lm」を公開したと発表した。


 公開したのは、パラメータ数17億(1.7 Billion)の1.7Bモデルと、36億(3.6 Billion)の3.6Bモデルの2つ。いずれも、オープンソース(OSS)としてHuggingFace Hubで公開され、ライセンスは商用利用も可能な「Apache License 2.0」になる。

 同社によると、2020年11月から日本語に特化した大規模言語モデル(LLM)「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでいるという。

 また、「HyperCLOVA」と並行するかたちで、複数の大規模言語モデルの研究開発プロジェクトが進行しており、今回発表した日本語言語モデル「japanese-large-lm」についても、そのひとつだという(構築はMassive LM開発ユニット)。

 なお、両モデルの訓練には、独自の大規模日本語Webコーパスを利用する。Web由来のテキストには、ソースコードや非日本語文のようなノイズが大量に含まれているため、フィルタリング処理を適用し、大規模かつ高品質なデータの構築している。

 フィルタリング処理には、NLPチームのメンバーが開発したOSSライブラリ「HojiChar 」を利用した。


 最終的な学習には、約650GBのコーパスを使用。英語の大規模コーパスとして一般的に用いられているもの(Pileコーパス)が約800GBであることから、同社では遜色ない大きさであるとしている。

 学習したモデルの性能評価として、開発データでのPerplexityスコア(PPL)および、質問応答・読解タスクの正解率を計測した結果、1.7BモデルはOpenCALM-7B(cyberagent/open-calm-7b)と同等かタスクによっては良い性能を達成。

 3.6Bモデルは、Rinna-3.6B(rinna/japanese-gpt-neox-3.6b)と同等か、タスクによっては良い性能を達成可能な状態にあるという。

 同社では、これらのモデルについて、指示文に対して適切な出力を行えるようにチューニング(Instruction tuning)したモデルを近日中に公開する予定だとしている。

「36億パラメータの日本語言語モデルを公開しました」
LINE Engineering

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]