データマネジメントになぜデータ品質が重要なのか

Jun 28, 2022 |
インフォマティカ編集部

データマネジメントにおける重要なテーマのひとつでもあるデータ品質。
本ブログでは、データ品質を確保するうえでプロファイリングが果たす役目と、そのためのソリューションについてご紹介します。

 

データ品質のトレンド

現在私たちを取り巻くデータマネジメントトレンドには、大きく次のようなものがあります。

 

  • 2年半〜3年ごとにデータが倍増している(年間25%のペースで増加)
  • 80%のCEOがコロナのパンデミックの影響でDXが加速したと考えている
  • データ品質の問題により30%の時間が付加価値のないタスクに費やされている
  • データ品質問題の80%はヒューマンエラーが原因で発生している

 

このうち後者の2つは、データ品質に関するトレンドです。このようにデータ品質の問題は、データマネジメントの中で大きなポジションを占めています。

データマネジメントに関わるさまざまなステークホルダー(データサイエンティストやアナリストなど)で構成されるデータコミュニティの課題も、半数はデータ品質に関連します。

どのようなものが挙げられるかというと、

 

  • 様々なフォーマットと品質レベルの新しいデータソースが絶えず追加される
  • 積極的に管理しないことによりデータ品質が低下する
  • データ品質プロセスが断片的かつ手作業で行われる
  • プロジェクト間で同じような作業が重複している

 

データ品質の課題とは

皆様も、業務やプロジェクトでさまざまなデータを扱う際に、データの統合や移動でエラーが発生したり、不正確なデータが表示されたことがあると思います。原因をよくよく調べてみると、本来の仕様と異なるデータが含まれていたことがあるのではないでしょうか。

 

たとえば「顧客マスター」テーブルの例でいうと、レコードの顧客IDが空欄になっていてNot Null制約に違反する、電話番号にハイフンの有無や桁数などフォーマットの異なるデータが含まれる、都道府県の表記にバラツキがあるといったケースです。

 

データ品質を確保するためには、完全性、適合性、関連性、一貫性、重複度などの観点から事前にプロファイリングを行うことで課題の内容を正確に把握し、各課題に応じたクレンジングを行わなければなりません。

 

プロファイリングの効能

システムには仕様変更や機能追加が付きものです。このため長く使用しているとデータが汚れてしまい、結果としてデータロード時に思わぬエラーが発生し、結果的にプロジェクト遅延につながるリスクがあります。

 

このようなケースでは、プロファイリングを活用することでその後の手戻りを極力減らし、プロジェクト全体が遅延するリスクを減らすことが重要です。

 

[データモデル棚卸>要件定義>設計>開発>テスト>]という流れで進むプロジェクトで考えてみましょう。

 

プロファイリングを行わない場合、テスト後の工程でロードなどに問題が発生すると、もう一度前の工程に戻って修正作業を繰り返すことになります。この手戻りを何度も繰り返すことにより、プロジェクトはどんどん遅延していきます。

 

一方、データモデル棚卸の段階で事前のプロファイリングをする場合、棚卸しにかかる期間は(プロファイリングを行わない場合と比べて)延びますが、そのぶん手戻りのリスクを減らせるため結果的にプロジェクト全体の期間を短くすることができます。

 

事前にプロファイリングをしてデータ連携をするときは、データセットの構成などを確認することで効率よくプロジェクトを進めることができます。

 

Cloud Data Qualityでできること

インフォマティカのIntelligent Data Management Cloudは、データマネジメントに関するさまざまなソリューションを連携させたクラウドプラットフォームです。ユーザーはプログラミング不要であらゆるデータを簡単に管理できます。

 

Intelligent Data Management Cloudに含まれるCloud Data Qualityは、プロファイリング>品質改善の定義>品質改善の実行>モニタリングという流れをPDCAで繰り返すことにより、データ品質の課題を見つけ改善することができるソリューションです。

 

プロファイリング

データの件数やフォーマット(型、桁数、必須項目や重複の割合など)をシンプルな操作で検出・確認できます。実際のデータの一部を確認するデータプレビュー機能は、権限設定で制限することも可能です。

 

品質改善の定義

プロファイリングによって想定と異なるデータが見つかった場合、クレンジング、辞書、解析、ルール仕様、住所検索、ラベラー、名寄せなどの「品質改善部品」を使って定義付けします。

 

品質改善の実行

定義されたデータ(データ形式のクレンジング、データの有効性検証、データ構造の解析と出力、住所辞書での検証と出力など)をマッピングに組み込み、データ統合を行います。

 

モニタリング

データ品質を定期的に時系列でモニタリングし、内容を確認します。

 

まとめ

利用者のニーズに応じたデータ品質を確保するためには、

 

①事前にプロファイリングして課題を正確に把握する

②把握した課題に応じたデータ品質ルールを定義する

③データ品質ルールが自動的に適用されるようにデータ統合処理に組み込む

④常に変化するデータに対し、定期的なモニタリングによって問題を事前に特定し改善する

 

という4つのステップが必要です。詳しくは下記のオンデマンドウェビナーをご覧ください。