社内のあらゆるニーズを満たすデータ品質とは〜データの信頼を高める5ステップ〜
データ主導でデジタルトランスフォーメーションを成功させるには、データの信頼性が必要不可欠です。とはいえ、データの信頼性を左右するデータ品質の基準はデータ利用者ごとに異なります。社内すべてを納得させるためには、データ品質の確保に関してどのようなアプローチを取れば良いのでしょうか?
今回はデータ品質を長期的に強化し、あらゆるニーズへの適合性を確保するソリューションについて説明します。
データ品質のレベルはニーズによって異なる
一般にデータ品質という言葉は、特定のデータやデータセットが持つ「正確性・完全性・整合性・一貫性・適時性」を表しています。データ品質はデータへの信頼性に大きく影響しますが、どのようなデータが高品質とされるかはデータ利用者の立場によって千差万別です。
たとえばデータサイエンティストの場合、トレンドの分析に大量の「ロウ(生)データ」を用います。データサイエンティストが機械学習を用いてリスク・エクスポージャを特定する場合は、クレンジングされた「高精度データ」が必要です。一方、業務担当者が意思決定に用いるデータには、全社レベルで一貫したデータ品質が確保されなければなりません。
つまりビジネスで求められるデータ品質の基準と程度は、特定の目的に合わせてさまざまに変わるものなのです。
データ品質を長期的に強化する5つのステップ
社内のデータ利用者のそれぞれのニーズに適応するデータ品質を確保するためには、データ全体に対してどのような処理を行えば良いのでしょうか?ここではデータの品質と目的への適合性を向上させる5つのステップについて順番に説明していきます。
1. データ品質がビジネスに与える影響を特定する
最初のステップは、データ品質が自社のビジネスに与えている「重大な影響」を割り出すことです。低品質なデータに起因するすべての問題をリストアップしてください。たとえば「商品機能の虚偽表示により、評判が失墜する」「不正確な配送先データにより、余計な配送コストが発生する」といった具合です。
2.データ品質に起因する影響を数値化する
2番目のステップとして、低品質なデータがもたらしている影響を数値化します。まずは以下のような質問を自社内で問いかけてみてください。
- 問題の原因はデータのどこにある?
- 問題の深刻度は?
- 同じ問題は以前にも発生した?
- 発生した回数は?
- 以前の発生時にとった改善措置は?
- 再発防止のために行った措置は?
- 改善のためにかかった推定コストは?
- 複数のソースやデータドメインでスケールメリットを獲得する方法は?
3.データ品質改善に関与する人材を選定する
3番目のステップは、データ品質の強化に加わる社内チームの編成です。データ品質の適合性を高めるためには、経営幹部はもちろんデータを扱うあらゆる部門が関与して「データ品質ルールの作成」や「改善措置の優先順位」を決定する必要があります。
チームに加える人材として挙げられるのは、主に以下のデータ利用者です。
- IT部門
- データ所有者とSME
- データ設計者
- データスチュワード
- 業務アナリスト
- データアナリスト
- アドホックユーザー
4.既存データにデータ品質ルールを適用する
4番目のステップとして、社内外に保存されている既存データに以下の処理を行います。
①既存のデータ品質をプロファイリングする
データプロファイリングツールを使って、データ品質に影響を及ぼす異常値の有無を調査・検証します。その後、現在のデータ品質についてレポートを作成します。
②データ品質ルールを定義する
業務部門の各担当者と共同で、それぞれの部門や業務プロセスでクレンジングが必要なデータ要素を特定・ルール化します。これにはデータが想定と合致していることを確認する「検証ルール」と、想定に反するデータを特定・修正する「クレンジングルール」が含まれます。
③データ品質ルールを適用する
データ品質ルールを適用する際は、オンプレミスとクラウドのどちらにも対応する自動実行ソリューションを利用することで迅速、かつ一貫した作業が可能です。例外的なデータ処理については業務部門の各担当者が手作業で処理します。
④データ品質を継続的に測定する
保存されている大部分のデータは年々劣化していきます。またクラウドには、自社ではコントロールできないサードパーティーのデータソースが流れ込むこともあります。データ品質を維持するためには、継続的な測定によって問題を事前に特定・改善することが重要です。
5.より広範囲なデータガバナンスを導入する
最後のステップは、データ品質とシームレスに連携する「全社的なデータガバナンス」の導入です。これにはデータのアクセス・保持・削除に関するルールの定義やコンプライアンスレポートの作成といった、社内外のデータに関するあらゆる機能が含まれています。
高品質なデータでDXを促進する
これら5つのステップすべてを実行するためには、経営者やデータ利用者の協力に加え、長期的な視野と継続的な取り組みが必要です。これは決して簡単なことではありません。それでも信頼できる情報をエンドユーザーに届けることは、データ主導のデジタルトランスフォーメーションを推進する大きな原動力となります。
データの重要性がますます高まる現代、データ品質の強化と維持はすべての企業が取り組むべき重要な課題と言えるでしょう。