サイバーエージェント、独自の日本語LLMに視覚を付与したVLMモデル--75億パラメータ

 サイバーエージェントは6月13日、75億パラメータの日本語VLM(Vision Language Model、大規模視覚言語モデル)を公開した。

 近年、OpenAI社が開発した「GPT-4o」を始めとする画像も扱えるLLMが急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいる。同社でもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでいるという。

 一方、既存の公開されているVLMのほとんどは英語を中心に学習されているため、日本文化の理解や日本語での会話に強いVLMは少ない状況にあるという。こうした背景のもとで日本語VLMの開発に取り組み、今回ベースモデルの一部をHugging Face Hubにて公開した。

 公開したモデルは、社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンスで提供される。

 このモデルをベースとしてチューニングを行うことにより、画像を加味した対話AIなどの開発も可能。また公開したモデルに加え、研究用に開発しているさらに高性能なモデルを一部試すことができるよう、デモも公開している(※研究用途のみ)。

ニュースリリース
モデルURL
デモURL

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

企画広告一覧

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]