Skip to content

発見されたデータを分析して、データの質についての洞察を得る

Learn to discover data that resides-in-your-data-sources チュートリアルでは、Watson Knowledge Catalog のデータ発見機能を使ってデータを発見する方法を見ました。このチュートリアルでは、発見されたデータを扱い、発見された資産にガバナンスの成果物を関連付ける方法を学びます。データ資産の主キーを特定し、関係分析を行って資産間の外部キー関係を特定します。さらに、データ品質分析の結果を見て、データ資産の品質スコアに何が影響するかを観察します。また、データ資産が遵守すべきルールを実施する方法も学びます。

学習目標

このチュートリアルでは、以下のことを行います。

  • データ資産のデータクラス、ビジネス用語、キーを見直し、更新する。
  • リレーションシップ分析を実行して、データ資産間の外部キーの関係を特定します。
  • データ品質ディメンションの見直し
  • データ品質を向上させるためのルールの追加
  • データ資産の再分析を行い、データ品質の変化を観察する

前提条件

見積もり時間

このチュートリアルを完了するには、約60分かかります。

Step 1.データ資産のデータクラス、ビジネス用語、キーの確認と更新

  1. IBM Cloud Pak for Data インスタンスにログインします。

    CPDログイン

  2. 左上の ハンバーガー(☰) メニューに移動し、Governance を展開し、Data quality をクリックします。HealthcareAnalysisデータ品質プロジェクトのタイルをクリックします。これは、Learn to discover data that resides in your data-sourcesで実施した自動検出プロセスの結果を含むプロジェクトです。

    CPDオープンデータ品質プロジェクト

  3. Data assetsタブで、PATIENTSをクリックして、PATIENTSデータアセットを開きます。

    PATIENTSアセットをクリック

  4. PATIENTSデータ・アセットのColumnsタブには、アセット内のカラムに関する情報が表示されます。分析プロセスによって、いくつかの列にデータ・クラスとビジネス用語が特定され、自動割り当てされていることがわかります。これらの値を編集するには、「編集」をクリックし、最初の列をクリックします。「ID」をクリックします。

    Patients - edit annotations

  5. Data classesタブに移動します。この列には、データクラス「Text」と「UUID」が特定されていることがわかります。また、これらのデータクラスの信頼度はどちらも100%です。これらのうち、UUIDデータクラスは分析中にこの列のデータクラスとして検出されたため、「検出されたデータクラス」にUUIDが記載されています。この場合、データクラスは正しく認識されましたが、そうではなく、データクラスを更新したい場合は、Selected Data Classの下にあるドロップダウンメニューを使って、このカラムに割り当てたいデータクラスを選択することができます。

    Patients IDデータクラス

  6. 「ガバナンス」タブに移動します。いくつかのビジネス用語が提案されていますが、ID列に割り当てられたものはありません。これは、信頼度が80%以上のビジネス用語がないためです。「患者ID」の隣にあるチェックマークをクリックすると、このビジネス用語をIDカラムに割り当てることができます。また、割り当てられていない、あるいは提案されていない場合には、検索バーを使って用語を検索することができます。さらに、提案された他の用語の横にあるXをクリックすると、それらの用語を「却下」としてマークすることができます。用語を「割り当て」または「却下」とマークすることで、将来データを分析したときに、その用語が割り当てまたは却下されたままになります。

    Patients ID governance

    注意。このコラムの場合のように、間違って提案された用語の拒否を省略することはできますが、間違った用語の拒否は、それらの用語の信頼度が80%以上で、その結果としてコラムに自動的に割り当てられた場合には特に重要です。このような場合には、信頼度が80%以上であっても、拒否された用語が今後の分析でこの列に割り当てられないようにします。

  7. ビジネス用語の受け入れと拒否が完了したので、左ペインのタブに移動し、リンクを使用して他の列に移動することで、他の列のデータクラスとビジネス用語を修正する手順を繰り返すことができます。データ・アセット注釈ファイルのPATIENTSセクションを参照して、PATIENTSデータ・アセットの列にデータ・クラスとビジネス・タームを割り当てます。PATIENTSデータ・アセット内の残りのすべての列の手順を完了したら、上部のパンくずを使ってPATIENTSデータ・アセットに戻ります。

    Patients IDガバナンス完了

  8. [Governance]タブに移動します。ここでは、「PATIENTS」データ・アセットに対して提案されたビジネス用語と割り当てられたビジネス用語が表示されます。このケースでは、正しい用語である「Patient」がすでにデータ資産に割り当てられています。また、前のステップでの列の場合と同様に、用語の割り当て/拒否を行うことができます。

    患者のガバナンス

  9. [Keys]タブに移動します。PATIENTSデータ・アセットのキー候補として識別された列のリストが表示されます。ID列の横のボックスをチェックして、Mark as selectedをクリックします。ポップアップ・ウィンドウで、Markをクリックして確定します。これにより、PATIENTSデータ・アセットの主キーとしてID列が使用されることがシステムに確実に認識されます。特定された他の候補キーを選択し、Mark as rejectedをクリックして、これらのキーを拒否することができます。これにより、将来PATIENTSデータ・アセットを再分析するときに、拒否されたキーが候補キーとして提案されないようになります。

    Patients - select primary key

    1. Doneをクリックして、PATIENTSデータ資産に行ったデータ・クラス、ビジネス用語、およびキーの更新をすべて保存し、Analyzeをクリックして、これらの更新に基づいてデータ資産を再分析します。

    Patients - reanalyze

  10. ポップアップウィンドウで、Analyze data qualityのチェックボックスを選択して、Analyzeをクリックします。

    Patients - reanalyze confirm

  11. 解析結果が更新されます。(:新しい分析結果を表示するには、ページを更新する必要がある場合があります)。割り当てたデータクラスとビジネス用語が保持されていることがわかります。ID列には、データ資産の主キーであることを示す鍵のアイコンが前に表示されています。左側のペインでは、PATIENTSアセットのデータ品質スコアの変更がDetailsタブに表示され、各列の個々の品質スコアの変更がColumnsタブに表示されています。ここでは、「BIRTHDATE」の品質スコアが低下していることがわかりますが、デルタ(変化)が非常に小さいため、全体の品質スコアに大きな低下は見られません。

    Patients - reanalysis results

  12. パンくずリストを使ってプロジェクトに戻ります。ENCOUNTERSデータアセットのデータクラス、ビジネス用語、およびキーを更新します。(。このチュートリアルの拡張バージョンでは、12個のデータ資産すべてのガバナンスアーティファクトを更新します)。データ資産の注釈ファイルを使用して、各データ資産の各列にどのデータクラスとビジネス用語を割り当てるかを学びます。また、このファイルには、各データ資産のガバナンス用語と主キーが記載されています。各データ資産について、更新後に再分析を行います。

Step 2.関係性分析を実行して、データ資産間の外部キー関係を特定する

  1. テーブルの主キーを選択したら、リレーションシップ分析を実行して、データ資産間の外部キーの関係を特定することができます。プロジェクトでは、Relationshipsタブに移動します。ENCOUNTERSPATIENTSの横のチェックボックスをクリックして選択し、Run analysisをクリックします。

    プロジェクト - リレーションシップ分析の実行

  2. ポップアップウィンドウで、Key Relationship Analysisを選択し、Analyzeをクリックします。

    プロジェクト - 関係分析の実行確認

  3. 分析が完了するのを待ちます。待っている間に、左ペインのCustomize displayタブに行き、画面に表示するリレーションシップを指定します。フィルターのドロップダウンメニューでSelectedCandidateを選択し、すべてのデータ資産を選択(またはすべてのデータ資産を個別に選択)するチェックボックスをクリックしてからCustomize displayをクリックします。これにより、すべてのアセットの候補および選択されたリレーションシップが画面に表示されます。

    プロジェクト - リレーションシップ分析の表示カスタマイズ

  4. Refreshアイコンをクリックして、ページを更新します。PATIENTSとENCOUNTERSのアセット間の関係を示すチャートとテーブルが表示されます。

    Project - run relationship analysis result

  5. 表の最後までスクロールします。このリレーションシップが 選択 ステータスに設定されていることがわかります。そのレコードのオーバーフローメニューをクリックします。ステータスをCandidateまたはRejectedに設定するオプションと、キー・リレーションシップを削除するオプションが表示されます。このリレーションシップはSelectedに設定する必要があります(すでに設定されています)。生成した他のリレーションシップについては、オーバーフローメニューのオプションを使用して、選択済みまたは拒否としてマークすることができます。これにより、今後のキー・リレーションシップ分析では、設定した内容が確実に記憶されます。

    Project - run relationship analysis result overflow menu

:このチュートリアルの拡張バージョンでは、他のデータ資産間の関係分析を実行します。次の表は、Healthcare-Data.zipファイル内の12のデータ資産すべての間の外部キーの関係をすべて示しています。これらの関係をSelected(選択)、その他の関係をRejected(拒否)としてマークすることを確認してください。

| 親データ資産|主キー|子データ資産|外部キー |-------------------|-------------|------------------|--------------| | 遭遇|id|アレルギー|遭遇 | 患者|ID|アレルギー|患者 | エンカウンター|ID|ケアプラン|エンカウンター|患者 | 遭遇する|患者|ID|ケアプラン|患者 | 遭遇|ID|条件|遭遇|患者 | 患者様|ID|条件|患者様 | 組織|イド|エンカウンター|組織 | 患者|イド|エンカウンター|患者 | 支払者|ID|出会い|支払者 | プロバイダー|イド|エンカウンター|プロバイダー | 遭遇者|イド|予防接種|遭遇者|患者 | 患者|イド|予防接種|患者 | 遭遇者|id|薬|遭遇者 | 患者|イド|薬|患者 | 支払い者|ID|薬|支払い者 | 遭遇|ID|観察|遭遇|患者|ID|観察|患者 | 患者|ID|観察|患者 | 遭遇|id|手順|遭遇|id|手順|遭遇 | 患者|イド|手順|患者 | 組織|ID|プロバイダー|組織

Step 3.データ品質次元の違反を確認する

  1. データ資産タブを開き、PATIENTSをクリックしてPATIENTSデータ資産を開きます。

    Project - click Patients asset

  2. Data qualityタブに移動します。データ品質分析プロセスでは、品質ディメンションを分析することでデータの品質問題を特定し、観測された違反を「Data quality」タブにリストアップします。各データ品質次元で検出された違反の数と、デルタ(過去2回の分析の間の違反数の変化率)が画面に表示されます。

    Patients - data quality tab

  3. リストの最初の次元「Data class violations」は、列の検出されたデータ・クラスに一致しない列の値を示します。クラスに違反している各値は、違反として識別されます。Data class violationsをクリックして展開します。データクラス違反を含む列名が、各列で見つかった違反の数とともに表示されます。リスト内の最初の列名をクリックします。「CITY」をクリックします。

    Patients - data class violations

  4. ポップアップ・ウィンドウが開き、Patientsデータ・アセットからCITY列にデータ・クラス違反があるすべてのレコードが表示されます。左から右にスクロールするとレコード全体が表示され、上下にスクロールするとさらに多くのレコードが表示されます。また、[ダウンロード]ボタンを使ってレコードをCSVファイルとしてダウンロードすることもできます。右上のXをクリックして、ポップアップウィンドウを閉じます。

    患者-市違反

  5. データクラス違反の下に表示されている他の列(ADDRESSやBIRTHDATEなど)のレコードを展開して見ることができます。

  6. 画面に表示されている他のデータ品質ディメンションを展開して確認します。

    • Suspect values は、その特性が異なるため、列の他の値のほとんどと一致しないと思われる値を識別します。 Inconsistent capitalization 大文字と小文字の使用が一貫していない値を識別します。 Data type violationsは、長さ、精度、またはスケールにおいて推測されるデータタイプに適合しない、または指定/識別されたデータタイプに違反する値を識別します。 Duplicated values は、ほとんどの値がユニークである列において、重複した値を識別します。 Values out of range は、列のデータの異常値を識別します。列に指定された最小値と最大値の間に入らない値が識別されます。 Suspect values in correlated columns は、他の列と相関のある列を特定し(ある列の値は他の列を使って予測できる)、その情報を使って同じ相関を持たないレコードを特定します。
    • Missing values は、Non-nullable 列として定義されている列の欠損値を検索します。 Inconsistent representation of missing values 欠落データのさまざまな表現(たとえば、NA、NULL、または空白のフィールド)を探します。NULL値と空の値の両方を含むカラムは、欠損値を表現する標準的な方法がないことを示唆しています。
    • Format violations は、分析中の特定の列に対して無効であると指定されたフォーマットに一致する値を特定します。
  7. また、任意のディメンジョンを無視することもできます。その結果、そのディメンションの違反が品質分析のスコアに影響を与えることはありません。ディメンションを無視するには、Editをクリックして編集モードに入り、ディメンションの横にあるIgnoreボタンを切り替えます。DoneEditボタンの代わりに表示される)をクリックして変更を保存し、データ品質の分析を再度行って品質スコアの変化を確認します。

    Patients - ignore dimension

Step 4.ルールの追加

データの品質を確保するために、ルールを使用することができます。これには次のようなものがあります。

データを分析するためのルールロジックを作成するために使用される * Data rule definitions。これらは、データルールや品質ルールの基礎となります。 * データルール定義の集合体である、ルールセット定義。 * データルール定義を物理的なデータにバインドすることで、データソースに関連する特定の条件を評価し、検証します。 * データルールの集合体である「ルールセット」。 Automation rules*:データを管理するプロセスを自動化するために使用することができます。

データルール定義のインポート

  1. HealthcareAnalysis-rules.xmlファイルをダウンロードします。

  2. データ品質プロジェクトで、「Data rules」タブを開き、「Import rules and definitions」をクリックします。

    プロジェクト - データルールのインポート

  3. ポップアップウィンドウで、Add fileをクリックし、先にダウンロードしたHealthcareAnalysis-rules.xmlファイルを選択します。ファイルのアップロードが完了したら、Nextをクリックします。

    Project - import data rules add file

  4. 次の画面では、アップロードされたファイルに3つのチェックボックスがあり、それぞれがデータルールの定義を表しています。3つともチェックされていることを確認し、「Import」をクリックします。

    プロジェクト - データルールのインポート

  5. アセットが正常にインポートされたという通知が表示されます。「閉じる」をクリックします。

    Project - import data rules successful

  6. [Data rules]タブで、Refreshをクリックしてルールのリストを更新し、Rules in projectを展開します。「プロジェクト内のルール」に3つの新しいレコードが表示されていることがわかります。

    プロジェクト - データルールのインポート結果

    新しく追加されたレコードのうち2つは、(患者の)死亡日に関するものです。このレコードには2つのデータルール定義が含まれており、1つはDate of Deathの値が今日以下であることを検証し(つまり、Date of Deathは将来の日付ではないということです)、もう1つはDate of DeathがDate of Birth以降に発生することを検証しています。3番目の新規レコードは、少なくとも患者の運転免許証番号またはパスポート番号が提供されたことを検証するデータルール定義です。

データルールの作成

インポートしたデータ定義の1つを使って、データルールを作成することができます。

    1. Data assets タブに戻り、PATIENTS をクリックします。

    Click Patients asset

  1. Rulesタブをクリックし、Create rule +をクリックします。

    Patients create ruleをクリックします。

  2. Data ruleを選択し、Data rule definitionでRules in projectを展開し、DoD_gte_DoBルールを選択します。このルール定義では、「患者の死亡日は常に患者の生年月日以上でなければならない」としています。「Next」をクリックします。

    Patients - create data rule

  3. ルールの名前(DeathDate greater than or equal to BirthDate)、およびオプションの短い説明と長い説明を入力します。「Next」をクリックします。

    Patients - data rule name

  4. 次の画面で「Next」をクリックします。

    Patients - data rule governance

  5. 左側の datebirth 変数を選択します。右側のテーブルで、データ・ソースを展開し、PATIENTSデータ・アセットを探します。PATIENTSデータ・アセット内のBIRTHDATE列を選択します。画面の左側にある結合をクリックします。PATIENTS.BIRTHDATE列は、「実装されたバインディング」に示すように、datebirth変数にバインドされます。左側のdatedeath変数についても同じ手順を繰り返し、PATIENTSデータ・アセットのDEATHDATE列にバインドします。両方の変数のバインドが完了したら、Nextをクリックします。

    Patients - data rule binding

  6. 次の画面では、「Next」をクリックします。

    Patients - data rule joins

  7. データルールからの出力は、カスタマイズされたテーブルに保存することができ、含まれなければならない行や列を指定することができます。この画面では、出力テーブルに含めたい列を選択できます。datedeathdatebirthの変数は、出力テーブルに自動的に追加され、画面右側の「Selected output」に表示されます。画面左側の「Columns」をクリックし、リストの中から「ID」「FIRST_NAME」「LAST_NAME」の各カラムを探して選択します。「Add to output」をクリックします。3つのカラムが右側の「Selected output」に表示されます。「Next」をクリックします。

    Patients - data rule output content

  8. 次の画面で、「Next」をクリックします。

    Patients - data rule output settingsをクリックします。

  9. Testをクリックして、ルールをテストします。100行のサンプルに対してルールが実行され、その結果が画面に表示されます。画面の下部にある「Did not meet rule conditions」タブをクリックすると、ルールを満たさなかったサンプルのレコードが表示されます。保存をクリックして、データルールを保存します。(注意。サンプルの100レコードすべてがルールの条件を満たす可能性があります)。

    Patients - data rule save

  10. 新しく追加されたデータ・ルールは、PATIENTSデータ・アセットのRulesタブに表示されます。

    Patients - data rule saved

データルールの実行

  1. 最後までスクロールして、データルールのオーバーフローメニュー(縦の3つの点)をクリックし、メニューのRunをクリックします。

    Patients - run data rule

  2. Refreshアイコンをクリックして、データルールの実行ステータスを更新します。ルールの実行が完了すると、実行状況が 成功 に更新され、PATIENTSデータ資産の行の割合と数がルールに失敗したことがわかります。オーバーフロー・メニュー・アイコンをクリックし、実行履歴の表示をクリックします。

    Patients - run data rule complete

  3. 最新のラン(リストの最初のラン)の横にあるチェックボックスをクリックしてから、ランの詳細を表示をクリックします。

    Patients - run data rule view details

  4. ルールに失敗した27件のレコードが画面に表示されます。これらのレコードの[死亡日]が[誕生日]と同じか後ではないことがわかります。ダウンロードボタンをクリックして、失敗したレコードをローカルマシンにエクスポートすることができます。ここでは、使用するデリミタや、カラムヘッダを含めるかどうかを指定できます。また、開始インデックスとそのインデックスで始まる行の数を指定してエクスポートすることもできます。最後に、画面上部のパンくずリストでPATIENTSをクリックすると、PATIENTSデータ・アセットに戻ります。

    Patients - run data rule details download

  5. データ・ルールは品質分析プロセスの一部としても実行され、データ・ルールの結果(ルール条件を満たさないレコード)は、データ資産の品質スコアに影響を与えます。

品質ルールの作成

次に、品質ルールの作成方法を学習します。

  1. PATIENTSデータアセットのRulesタブで、Create rule +をクリックします。

    Patients - create rule - 2

  2. Quality ruleを選択し、Data rule definitionでRules in projectを展開し、At_least_one_of_DL_Passport_existsルールを選択します。このルール定義では、少なくとも患者のパスポートまたは運転免許証が提供されなければならないとしています(両方ともnullは不可)。「Next」をクリックします。

    Patients - create quality rule

  3. 左側の passport 変数を選択します。右側のテーブルで、データ・ソースを展開し、PATIENTSデータ・アセットを探します。PATIENTSデータ・アセット内のPASSPORT列を選択します。画面の左側にあるBindをクリックします。「実装されたバインディング」に示すように、PATIENTS.PASSPORT列がpassport変数にバインドされます。左側のdrivers_license変数についても手順を繰り返し、PATIENTSデータ・アセットのDRIVERS_LICENSE列にバインドします。両方の変数のバインドが完了したら、Nextをクリックします。

    Patients - quality rule binding

  4. Testをクリックして、ルールをテストします。100行のサンプルに対してルールが実行され、その結果が画面に表示されます。Saveをクリックして、品質ルールを保存します。(注意。サンプルの100レコードすべてがルールの条件を満たしている可能性があります)。

    Patients - quality rule save

    新しく追加された品質ルールは、Patientsデータ資産のRulesタブに表示されます。

    Patients - quality rule saved

品質ルールは、データ・ルールとは異なり、品質分析プロセスの一部としてのみ実行できます。

自動化ルールの作成

次に、自動化ルールを作成します。自動化ルールは、データを最高の品質に保つためにデータに対して実行する必要があるタスクの一部を自動化するのに役立ちます。これには、ルール定義の適用、データ品質ディメンションの追加、データ品質のしきい値の設定などが含まれます。

  1. 自動化ルールを実行するには、データ品質プロジェクトが構成されている必要があります。HealthcareAnalysisプロジェクトに移動し、Settingsタブに移動します。Data qualityをクリックし、スクロールダウンしてEnable automation rulesのチェックボックスを見つけます。チェックボックスにチェックを入れ、Saveをクリックします。

    プロジェクト - 自動化ルールの有効化

先ほどで、DoD_lte_Todayデータルール定義をHealthcareAnalysisプロジェクトにインポートしました。このルールでは、「死亡日」は今日以下でなければならない、つまり将来の日付であってはならないとしています。

次に、このルール定義を使用した品質ルールを、Patient Death Dateビジネス用語が割り当てられているすべてのアセットに追加する自動化ルールを作成します。

自動化ルールでデータ・ルール定義を使用するには、まずその定義を公開して他のユーザが利用できるようにする必要があります。

  1. Data rulesタブに移動します。プロジェクト内のルールを展開し、DoD_lte_Todayデータルール定義を探し、その横にあるオーバーフローメニュー(縦に3つの点)をクリックし、公開をクリックします。ポップアップウィンドウでPublishをクリックして、ルールを発行することを確認します。

    プロジェクト - ルールの発行

    データルールの定義が公開され、Published Rulesにデータルールのレコードが表示されます。(注意。テーブルをTypeでソートすると、新しく発行されたルールが[Published Rules]のテーブルの一番上に表示されます。

    プロジェクト - ルール公開

    :必要に応じて、他のルールや定義も「Rules in project」で公開して、他のユーザーが利用できるようにすることができます。

  2. 左上の ハンバーガー(☰) メニューを開き、ガバナンス を展開し、自動化ルール をクリックします。「オートメーションルールの作成+」をクリックします。

    CPD - create automation rule

  3. 自動化ルールに名前(Date of Death cannot be in the future)、説明を付け、ステータスを Accepted に設定します。ステータスをAcceptedに設定すると、ルールが有効になり、ルールロジックで指定されたアセットが影響を受けることになります。

    CPD - 自動化ルール名

  4. 次に、ルールロジックを構築する必要があります。スクロールダウンして ルールロジック キャンバスに移動します。Conditionsをクリックし、表示されたメニューでthe asset has the term (Select a term) assignedをクリックします。

    CPD - 自動化ルール選択条件

  5. 選択した条件が画面上のキャンバスに追加されます。キャンバス上にすでに存在していた「if-then」ロジックステートメントの「if」に対して、条件をドラッグ&ドロップします。条件が固定されると、クリック音が鳴ります。条件が if-then 文に追加されたことを確認するには、緑色の if-then ブロックをクリックしてキャンバス上で動かしてみてください。条件は、if-then ブロックと一緒に移動するはずです。次に、条件の中の虫眼鏡をクリックして、ビジネス用語を選択します。

    CPD - 自動化ルールに条件を追加

  6. 新しいポップアップウィンドウが開きます。Patient Death Dateのビジネス用語を検索し、リストからPatient Death Dateのビジネス用語を選択します。「保存」をクリックします。

    CPD - 自動化ルール条件ビジネス用語

    キャンバスに戻ると、ビジネス用語が条件で更新されていることがわかります。

    CPD - 自動化ルール条件更新

  7. 次のステップでは、アクションを追加します。左メニューのActionsをクリックして、bind the data rule definitionを選択します。

    CPD - automation rule select action

  8. 選択したアクションが画面上のキャンバスに追加されます。先ほどと同じように、キャンバス上にすでに存在している「if-then」ロジック文の「then」に対してアクションをドラッグ&ドロップします。アクションが固定されると、クリック音が鳴ります。緑色の「if-then」ブロックをクリックしてキャンバス上で移動させると、条件もアクションも一緒に移動します。次に、アクション内の虫眼鏡をクリックして、データルール定義を選択します。

    CPD - オートメーションルール追加アクション

  9. 新しいポップアップウィンドウが開きます。DoD_lte_Todayデータルール定義を検索して、リストからDoD_lte_Todayデータルール定義を選択します。「Save」をクリックします。

    CPD - automation rule action rule def

    キャンバスに戻ると、データルール定義がアクションで更新されていることがわかります。上にスクロールして、Saveをクリックします。

    CPD - 自動化ルールの保存

  10. ポップアップウィンドウが開きます。自動化ルールの影響を受けるアセットとワークスペースの情報が表示されます。[詳細を表示]をクリックすると、影響を受けるデータ資産と列の一覧が表示される新しいブラウザページが開きます。PATIENTSデータ資産のDEATHDATE列が影響を受けることがわかります。ポップアップ・ウィンドウに戻り、Saveをクリックして、オートメーション・ルールを保存することを確認します。

    CPD - オートメーションルールの保存確認

  11. [自動化ルール] ページに戻り、作成した自動化ルールの新しいレコードがページに表示されているはずです。新しいレコードが表示されない場合は、Refreshアイコンをクリックしてリストを更新してください。

    CPD - automation rule created

  12. 自動化ルールは、データ品質分析プロセスの一部として実行され、DoD_lte_Todayデータ・ルール定義に従って、Patient Death Dateビジネス用語が割り当てられているすべてのデータ資産のすべての列に新しい品質ルールを割り当てます。

データ品質分析の再実行

データルール、品質ルール、自動化ルールが追加されたら、これらのルールを実行するデータ分析を再実行することができます。

注意。データルールは、前述のように単独で実行して出力テーブルを生成することができます(#run-data-rule)。また、データ品質分析プロセスの一部としても実行されます。品質ルールは、データ分析プロセスの一部としてのみ実行されます。自動化ルールは、データ発見およびデータ分析プロセスの一部として実行されます。

  1. 左上のハンバーガーメニューに移動し、ガバナンスを展開して、データ品質をクリックします。HealthcareAnalysisデータ品質プロジェクトのタイルをクリックします。

    CPDオープンデータ品質プロジェクト

  2. PATIENTSデータ・アセットのLast analysis値がOutdatedであることがわかります。PATIENTSデータ・アセットのレコードの横にあるチェックボックスをクリックして選択し、Analyzeをクリックします。

    Project - run analysis for rules

  3. ポップアップウィンドウで、データ品質の分析を選択して、分析をクリックします。

    Project - run analysis for rules confirm

  4. データ品質分析が実行され、数分後に結果が表示されます。Refreshアイコンをクリックする必要があるかもしれません。データ分析が完了したら、PATIENTSをクリックして、PATIENTSデータ資産に移動します。

    Project - go to Patients asset

  5. PATIENTSデータ・アセットのData qualityタブに移動します。以前に調べたデータ品質ディメンションに加えて、3つの新しいデータ品質ディメンションが表示されます(#step-3-review-data-quality-dimensions-violations)。PATIENTSデータ・アセットの全体的な品質スコアが下がっていることに注目してください。左ペインの[Columns]タブを見ると、これらの新しいルールにより、BIRTHDATE、DEATHDATE、DRIVERS_LICENSE、PASSPORTの各カラムの品質スコアが低下していることがわかります。

    Patients - data quality rule dimensions

  6. 新たに追加された最初のデータ品質ディメンション -- ルール違反のこと。At_least_one_of_DL_Passport_exists - 作成した品質ルールのルール違反を指定します。2つ目は -- Rule violations:DoD_gte_DoB -- 作成したデータルールのルール違反を指定します。3つ目は -- Rule violations:DoD_lte_Today -- 自動化ルールによって追加された品質ルールのルール違反を指定します。

  7. 以前のように、これらの新しいルール違反エントリを展開して、どのレコードがルールに違反したかを確認できます。

    Patients - data quality rule view results 1 Patients - data quality rule view results 2

まとめ

このチュートリアルでは、データの品質を向上させるために使用できる、IBM Cloud Pak for Data プラットフォームで利用可能なツールを見ました。データにガバナンス・アーティファクトを割り当てる方法と、分析を実行してデータのデータ品質スコアを計算する方法を学びました。データ資産の主キーを特定・選択し、データ資産間の外部キー関係を特定する。データを最高の品質に保つために、データ品質プロジェクトに組み込むことができるさまざまな種類のルールについて学びました。また、データ資産の品質スコアに何が影響するかを確認するために、さまざまなデータ品質ディメンションを調べました。

このチュートリアルは、An introduction to the DataOps disciplineシリーズの一部です。