Skip to content

このチュートリアルでは、IBM API Hub プラットフォームで利用可能な Data Quality for AI API を使用して、分類された表形式 (構造化) データのクラス・オーバーラップおよびラベル純度ベースのデータ品質を評価する方法を学びます。このチュートリアルでは、クラス・オーバーラップとラベル・ピュリティのメトリクスの意味と、これらの API を呼び出して探索する方法について説明します。

前提条件

このチュートリアルを完了するには、以下が必要です。

  • CSV形式の表形式(構造化)データセット
  • Python 3

見積もり時間

このチュートリアルを完了するには、約15分かかります。

データセット

このチュートリアルでは、DataHubから公開されているAdultのデータセットを使用します。このデータセットは、年収5万円以上であるかどうかを評価する分類タスクに基づいています。このデータセットを使って、クラスオーバーラップとラベル純度のAPIの機能を説明します。

初期設定

始めるには

  1. 以下のAPIキーの値を記述したconfig.jsonファイルを作成します。このラーニングパスの前のチュートリアルでは、[Client IDとClient secretを取得する]方法を説明しました(https://developer.ibm.com/learningpaths/data-quality-ai-toolkit/assessing-quality-of-tabular-data-sets-using-apis/)。

インポートjson インポート リクエスト

config.jsonから資格情報ヘッダーを読み込む

credentials_headers = json.load(open("config.json", "r"))

with open('adult.csv', 'r') as fp: response = requests.post( 'https://api.ibm.com/dataquality4ai/run/data_quality/structured/label_purity', headers=credentials_headers, files={'data_file': fp}. ) print("Response JSON -", response.json())

Step 2.ジョブIDを使ってラベル純度の結果を得る

前のステップで返した job_id を使って、get_result APIコールを呼び出し、ジョブの結果やステータスを得ることができます。

リクエスト