> >

LINE、36億パラメータの日本語言語モデルをオープンソースで公開--商用利用可

　LINEは8月14日、同社のNLP Foundation Devチームが日本語言語モデル「japanese-large-lm」を公開したと発表した。

　公開したのは、パラメータ数17億（1.7 Billion）の1.7Bモデルと、36億（3.6 Billion）の3.6Bモデルの2つ。いずれも、オープンソース（OSS）としてHuggingFace Hubで公開され、ライセンスは商用利用も可能な「Apache License 2.0」になる。

　同社によると、2020年11月から日本語に特化した大規模言語モデル（LLM）「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでいるという。

　また、「HyperCLOVA」と並行するかたちで、複数の大規模言語モデルの研究開発プロジェクトが進行しており、今回発表した日本語言語モデル「japanese-large-lm」についても、そのひとつだという（構築はMassive LM開発ユニット）。

　なお、両モデルの訓練には、独自の大規模日本語Webコーパスを利用する。Web由来のテキストには、ソースコードや非日本語文のようなノイズが大量に含まれているため、フィルタリング処理を適用し、大規模かつ高品質なデータの構築している。

　フィルタリング処理には、NLPチームのメンバーが開発したOSSライブラリ「HojiChar 」を利用した。

　最終的な学習には、約650GBのコーパスを使用。英語の大規模コーパスとして一般的に用いられているもの（Pileコーパス）が約800GBであることから、同社では遜色ない大きさであるとしている。

　学習したモデルの性能評価として、開発データでのPerplexityスコア（PPL）および、質問応答・読解タスクの正解率を計測した結果、1.7BモデルはOpenCALM-7B（cyberagent/open-calm-7b）と同等かタスクによっては良い性能を達成。

　3.6Bモデルは、Rinna-3.6B（rinna/japanese-gpt-neox-3.6b）と同等か、タスクによっては良い性能を達成可能な状態にあるという。

　同社では、これらのモデルについて、指示文に対して適切な出力を行えるようにチューニング（Instruction tuning）したモデルを近日中に公開する予定だとしている。

CNET Japanの記事を毎朝メールでまとめ読み（無料）

-PR-企画広告