ヤフーは4月18日、AI・自然言語処理技術のひとつである分散表現の学習時間を短縮化する技術「yskip」をオープンソースソフトウェア(OSS)として公開したと発表した。
分散表現とは、単語をベクトルで表現する自然言語処理領域のAI技術のひとつ。同技術を用いると、大量のテキストデータからさまざまな単語の関係性を機械学習し、単語同士の意味の相違を機械的に推定できる。同社では、同技術をユーザーの興味関心情報と記事や広告のマッチングの裏側の技術として活用しているという。
ただし、分散表現は、より大量のテキストデータを用いて学習することで精度向上が期待できるが、日々増加し、新たなトレンドも生まれてくる「検索キーワード」や「SNSのつぶやき」などのインターネットサービス上のテキストデータを活用する場合は、学習モデルを頻繁に更新することが求められていた。その際、新しいデータだけでなく、既に学習したデータもあわせて一から学習しなおす必要があり、そのたびに学習時間がかかるなど非効率だったという。
このような課題を受け、新しいデータのみの学習で、全データで学習する場合と比べ学習時間を短縮化しつつ同等精度を維持する分散表現技術「yskip」を開発。4月18日よりGitHub上にOSSとして公開した。同社は、Twitterに投稿されたつぶやきを検索できる「リアルタイム検索」の裏側で「yskip」を用いている。
なお、「yskip」は、代表的な分散表現学習法である「skip-gram model with negative sampling」(SGNS)を拡張した技術となる。同社によると、「yskip」と従来の学習法SGNSを、分散表現の精度を測定するために使われている5種のデータセットで検証したところ、同等精度で学習可能であることが実証されたという。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス