Skip to content

概要

もしAIをテーマにした映画があったとしたら、物語の主人公はデータサイエンティスト、仮にRiaとします。Riaは多国籍企業で働いていますが、ある月曜日の朝、AIモデルを構築するプロジェクトに協力してほしいという依頼を受けます。そのプロジェクトは注目度の高いプロジェクトで、Riaと彼女のチームがAIモデルを構築して問題を解決できれば、会社にとって大きな収益の節約になる可能性があります。興奮したRiaは、自分とチームがプロジェクトに取りかかれるように、すぐにデータアクセスをお願いし始めます。Riaと彼女のチームは、データを分析してデータ品質の問題を見つけ、データをクリーニングし、機能を構築し、モデルを構築します。数ヶ月後、Riaと彼女のチームは高精度のモデルを構築するのに苦労していました。イテレーションを繰り返すたびに、データ品質の問題がさらに見つかり、設計テーブルに戻って問題点をブレーンストーミングし、修正方法を考え、データ修正のためのコードを書きます。何週間も何ヶ月もの努力を経て、Riaは、最初にデータを入手したときにデータ品質に関するレポートを入手していれば、プロジェクト全体がより効率的になっていただろうと考えています。これはよくある話ですか?

多くの研究は、データの準備が機械学習のライフサイクルの中で最も時間のかかる部分の一つであることを示しています。その理由の1つは、データの問題は試行錯誤の中で発見され、問題が見つかるたびに新しいコードを書かなければならず、機械学習のパイプラインを構築する過程でデータがどのように変更されたかの系譜が残るように、誰かがデータに適用されたすべての変更を手動で記録しなければならないからです。しかし、これらの情報は、明示的に記録されていない限り、入手できない可能性があります。

現在、データサイエンティストは、カスタムスクリプトを書いたり、手動で分析したりすることでこれらの問題を解決していますが、これには時間がかかります。また、クラスの重複やラベルのノイズを見つけるような課題は、それ自体がAIベースのアルゴリズムであり、ビジネスプロジェクトで使用できるようになるまでに数ヶ月かかる場合もあります。さらに、チェックすべき指標の数が多いことや、表形式データや時系列データなどデータのモダリティが異なることなど、他の課題もあり、この問題をさらに難しくしています。そのため、この分野では、異なるモダリティのデータを一貫して評価し、評価を説明し、推奨事項を提案し、これらの推奨事項を実行するためのコードを作成するための自動化が必要とされています。

このような課題を克服するために、IBM Researchは、斬新なアルゴリズムを用いて構築されたData Quality for AI Toolkitを開発し、十分に仕様化されたAPIを用いてデータの評価と修正を行う体系的な方法を提供しています。このツールキットは、以下のような様々なユースケースに対応できるように構築されています。

  • 教師付き分類モデルの構築
  • アプリケーションのワークフローにデータ品質を提供し、ドメイン入力を直感的に行えるようにする。
  • データ合成による厳格なプライバシー制約の下での作業
  • データの品質を自動的に報告し、データのリネージを把握する。

本ツールキットには以下の機能があります。

  1. バリデータ。データ品質の評価を行い、0~1のデータ品質スコアを出力するアルゴリズム。
  2. 是正者。データ品質を修正するための是正措置を提供し、データ品質スコアに影響を与えるアルゴリズム。
  3. 制約条件。ドメインエキスパートが提供する明示的な入力、またはデータの特性を分析することで暗黙的に導き出される入力。
  4. データシンセサイザー。厳しいプライバシー制約のためにデータを共有できない場合、実データから制約条件を学習して実データを模倣するようにデータを合成する機能を提供します。
  5. パイプライン。ユースケースやアプリケーションのワークフローに対応して、バリデータやレメディエーターと制約条件を組み合わせ、データ品質の総合スコアを出力します。
  6. データ準備状況レポート。品質メトリクスと適用されたデータ変換の差分の変化を記録する変更の自動文書化。

本製品の詳細については、https://www.ibm.com/jp-ja/products/dqaiapiをご覧ください。

教師付き分類モデルを構築するためのデータ品質を確認するためのAPIは、IBM API Hubにて試用版を提供しています。これらのAPIをAIライフサイクルのステップゼロで使用して、データセットの品質を見つけることができます。ラベル、データ配布に関する課題、データのクリーンさなど、さまざまな次元からデータを評価するAPIがいくつかあります。さらに、データセットをプロファイリングして、データの特性を理解することもできます。すべてのAPIは、JSONオブジェクトの形で標準的なレスポンス構造を持っており、データ品質スコアを与え、データ品質の低さの原因となっている地域を指摘し、データを改善するための推奨事項を提示します。データ品質スコアは0~1の実数値で、1が完璧な品質を意味します。各APIでは、スコアの算出方法が詳細に説明されています。これらのAPIを利用することで、データの問題点を体系的に把握し、それを修正することで、データセットを改善し、ライフサイクルの次のステップに進むことができます。APIと結果オブジェクトへのアクセス方法の詳細をご覧ください。

デモ

まとめ

本記事では、データサイエンティストがデータ品質の問題を理解して体系的に対処し、データサイエンスのパイプラインで対処できる「Data Quality for AI Tookit」の特徴と、これらのAPIの一部がIBM APIHubからどのようにアクセスできるかを説明しました。ご質問、トライアルモードで利用できる他の機能の提案、問題点などがありましたら、Data Quality for AIのSlackワークスペースに参加して教えてください。