logo

ヤフー、分散表現の学習時間を短縮化するAI技術「yskip」をOSSとして公開

  • このエントリーをはてなブックマークに追加

 ヤフーは4月18日、AI・自然言語処理技術のひとつである分散表現の学習時間を短縮化する技術「yskip」をオープンソースソフトウェア(OSS)として公開したと発表した。

キャプション
Word Similarityタスクのデータセット3種類(WordSim353、MEN、SimLex999)とAnalogyタスクのデータセット2種類(Googleデータ、MSRデータ)を用いた結果

 分散表現とは、単語をベクトルで表現する自然言語処理領域のAI技術のひとつ。同技術を用いると、大量のテキストデータからさまざまな単語の関係性を機械学習し、単語同士の意味の相違を機械的に推定できる。同社では、同技術をユーザーの興味関心情報と記事や広告のマッチングの裏側の技術として活用しているという。

 ただし、分散表現は、より大量のテキストデータを用いて学習することで精度向上が期待できるが、日々増加し、新たなトレンドも生まれてくる「検索キーワード」や「SNSのつぶやき」などのインターネットサービス上のテキストデータを活用する場合は、学習モデルを頻繁に更新することが求められていた。その際、新しいデータだけでなく、既に学習したデータもあわせて一から学習しなおす必要があり、そのたびに学習時間がかかるなど非効率だったという。

 このような課題を受け、新しいデータのみの学習で、全データで学習する場合と比べ学習時間を短縮化しつつ同等精度を維持する分散表現技術「yskip」を開発。4月18日よりGitHub上にOSSとして公開した。同社は、Twitterに投稿されたつぶやきを検索できる「リアルタイム検索」の裏側で「yskip」を用いている。

 なお、「yskip」は、代表的な分散表現学習法である「skip-gram model with negative sampling」(SGNS)を拡張した技術となる。同社によると、「yskip」と従来の学習法SGNSを、分散表現の精度を測定するために使われている5種のデータセットで検証したところ、同等精度で学習可能であることが実証されたという。

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画特集

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]