グーグルのクラウドを支えるテクノロジー > 第72回 機械学習パイプラインにおける学習データの異常検知システム(パート3)

CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー > 第72回 機械学習パイプラインにおける学習データの異常検知システム(パート3)」を公開しました。

###

はじめに

 前回に引き続き、2019年に公開された論文「Data Validation for Machine Learning」を元にして、機械学習モデルの学習データに含まれる異常を検知するシステムを紹介します。前回は、データスキーマを用いたデータの異常値検知、および、データの統計値に基づく異常値検知の仕組みを説明しました。今回は、スキーマから自動生成したデータを用いて、モデルとデータの不整合を検知する仕組みを紹介します。

スキーマを用いたテストデータの生成

 ここでは、前々回の図1で、「Model Unit Testing」に当たる部分の機能を説明します。一般に、機械学習モデルを開発する際は、モデルに入力するデータの種類について、一定の想定が置かれます。簡単な例で言うと、ある入力値は負の値をとることはない、と言った想定です。このような前提で設計されたモデルに想定外のデータ(先ほどの例であれば、負の値のデータ)を入力すると、的外れな予想結果が出力されるだけではなく、ソフトウェアエラーが発生して予測システムが停止するななどの問題を引き起こす可能性があります。

この続きは以下をご覧ください
リンク

本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]