LINEは8月14日、同社のNLP Foundation Devチームが日本語言語モデル「japanese-large-lm」を公開したと発表した。
公開したのは、パラメータ数17億(1.7 Billion)の1.7Bモデルと、36億(3.6 Billion)の3.6Bモデルの2つ。いずれも、オープンソース(OSS)としてHuggingFace Hubで公開され、ライセンスは商用利用も可能な「Apache License 2.0」になる。
同社によると、2020年11月から日本語に特化した大規模言語モデル(LLM)「HyperCLOVA」の構築と応用に関わる研究開発に取り組んでいるという。
また、「HyperCLOVA」と並行するかたちで、複数の大規模言語モデルの研究開発プロジェクトが進行しており、今回発表した日本語言語モデル「japanese-large-lm」についても、そのひとつだという(構築はMassive LM開発ユニット)。
なお、両モデルの訓練には、独自の大規模日本語Webコーパスを利用する。Web由来のテキストには、ソースコードや非日本語文のようなノイズが大量に含まれているため、フィルタリング処理を適用し、大規模かつ高品質なデータの構築している。
フィルタリング処理には、NLPチームのメンバーが開発したOSSライブラリ「HojiChar 」を利用した。
最終的な学習には、約650GBのコーパスを使用。英語の大規模コーパスとして一般的に用いられているもの(Pileコーパス)が約800GBであることから、同社では遜色ない大きさであるとしている。
学習したモデルの性能評価として、開発データでのPerplexityスコア(PPL)および、質問応答・読解タスクの正解率を計測した結果、1.7BモデルはOpenCALM-7B(cyberagent/open-calm-7b)と同等かタスクによっては良い性能を達成。
3.6Bモデルは、Rinna-3.6B(rinna/japanese-gpt-neox-3.6b)と同等か、タスクによっては良い性能を達成可能な状態にあるという。
同社では、これらのモデルについて、指示文に対して適切な出力を行えるようにチューニング(Instruction tuning)したモデルを近日中に公開する予定だとしている。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」