FacebookのApplied Machine Learningチームは、多言語の埋め込み技術を利用して、Facebook上の人工知能(AI)ツールをより多くの言語に拡張し、AI製品の新言語への対応を迅速化する計画について詳細を明らかにした。
Facebookはブログ記事の中で、多言語の埋め込みは、自然言語処理(NLP)によるテキスト分類を用いた他のアプローチに比べて、全体の遅延を20〜30倍短縮できると説明した。Facebookはこの手法を、NLPを多くの言語に拡張する優れた方法と呼んでいる。
Facebookによると、多言語の埋め込みでは、すべての言語の単語埋め込みが同じベクトル空間内にあり、(言語に関係なく)意味が似ている単語は近くにあるという。Facebookはこれまで、言語ごとに分かれた大量の訓練用データを収集する必要があった。あるいは大量のデータを英語で収集し、英語の分類子を訓練してから、それを他の言語に翻訳していた。
Facebookは、異なる言語の単語がより近くに表示されることがテキスト分類にどう役立つかについて、次のように説明した。
多言語でテキスト分類を機能させるためには、これらの多言語の埋め込みをテキスト分類モデルの基本表現として利用する。新しい言語の単語が、埋め込み空間内の訓練された言語の単語の近くに表示されるため、分類子は新言語にもうまく対応できる。そのため、1つまたは複数の言語を訓練することで、訓練では一度も出てこなかった言語でも機能する分類子を習得できる。
Facebookは初期のテストで、この手法が英語とドイツ語、フランス語、スペイン語において、より効果的に機能することを確認した。このプロジェクトが拡大する中で、同チームは大量のデータがない言語についても新しい手法を試していく、とFacebookは述べた。
Facebookは同社のエコシステムにおいて、この手法を他でも活用している。それには、ポリシーに違反するコンテンツを検知する「Integrity」システムや、「Event Recommendations」(おすすめのイベント)などの機能をサポートする分類子が含まれる。
Facebookによると、通常、多言語の埋め込みの方が正確であり、「ユーザーは自分が好む言語で、Facebookのより良い体験を享受できるようになるはず」だという。Facebookは今後、複数の言語で文化的背景のニュアンスを捉える方法の開発に取り組んでいく予定だ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
ものづくりの革新と社会課題の解決
ニコンが描く「人と機械が共創する社会」
ZDNET×マイクロソフトが贈る特別企画
今、必要な戦略的セキュリティとガバナンス