最適なデータカタログを構築するには?
最近お客様とのお話の中で最も話題に上るものの一つがデータカタログの構築です。今回は、如何にして最適なデータカタログを構築するしていけば良いのか、少しでもお役に立てる情報をお伝えできればと思います。
そもそもデータカタログとは何でしょう。まずは「2種類のデータ」について見ていきます。
データには、お客様情報や売上情報などの実データと、データの性質を表すメタデータがあります。メタデータとしてお馴染みのものとしては「お客様コードは10桁の整数」と定義するシステムメタデータですが、それ以外にも「データのオーナーのオーナー部署」や「データを利用する業務プロセスやシステム」を表すビジネスメタデータなどもあります。これらのメタデータを収集・蓄積し、検索・確認できるようにすることで、レポートに現れるデータの来歴や、源泉データの行き先(影響範囲)が容易に把握できるようになり、様々な業務の信頼性を高めたり(ガバナンス)、次世代分析のためのデータ準備を効率化したり(データ活用)することができるようになります。
データカタログのニーズは以前から潜在的にあったものの技術面・運用面での実装が難しいとされ取り組みが進んでこなかったのですが、ここに来てAI/機械学習技術を用いたBigData活用によるデジタルトランスフォーメーションが活況となり、改めてデータカタログにスポットが当たり具体的にプロジェクト化する企業が増えてきています。
データカタログに求められる機能は、様々なシステムや組織をまたがったデータ資産を網羅的に管理し、透過的な検索性を提供することはもちろん、分類・クレンジング・エンリッチなどより利用可能な情報に加工して利用者に提供するキュレーションプラットフォームであることも重要です。オンプレ・SaaS・ファイル・Hadoop等の異なる技術要素、また文化の異なる部署をまたがってデータマネジメントを実現するためには網羅的・透過的なデータカタログが不可欠なのです。
実際にデータカタログが求められるシーンとは?
まず1つめは、次世代データ分析でしょう。これまでの分析に加え、一般ユーザーによるセルフサービスBIや、データサイエンティストによる予測モデル構築など分析用途・手法の広がりに伴い、必要とされるデータの種類や量が増えいます。そうなると如何に早くデータにアクセスできるか、個人の知見や経験を組織全体で効率的に共有・活用できるかが成功のポイントとなります。
これまでのやり方では、利用者がどのようなデータを必要とするかIT担当者に伝え、IT担当者はテーブル定義書やシステム設計書を頼りにデータを探し加工した上で利用者に提供する、時間が掛かった上結局求められるものを提供できず手戻りが発生、数ヶ月を要した結果データが陳腐化してしまう、というなんとも悲しい状況が現実に起こっています。
ある国内製造業のお客様の事例ですが、この企業は従来から分析に対するモチベーションは高く営業部門・設計部門などで積極的にデータが活用されていました。ただ、その実装としては部門最適だったために利用するデータがまちまちで、とても企業の中にあるデータ資産を十分活用できている状況では無かったと言います。そこでデータレイク構想に着手され、ステージングエリア・構造化エリア・自由分析エリアなどへのゾーニングを行い、併せて冗長データの排除も進められました。
そこで必要になったのが、データカタログです。ソースシステムからデータ抽出・コピーし、ゾーン毎に集計やコピー等を行って最適配置を行ったとしても、時間を追う毎に要件が追加されその姿は変わっていきます。その中で利用者自らが必要なデータの情報に素早くアクセスできるようにするため、インフォマティカのカタログソリューションで データカタログ(お客様の言葉ではデータ仮想化)を構築されました。
もう1つの重要なシーンはデータガバナンスです。業界での規制があるケースは分かりやすく、レポートの信頼性やデータ品質・業務品質の確保の為にデータカタログ・データリネージが必要となります。それ以外の業界でも、GDPRや個人情報保護法などによるオプトアウトの管理はどの企業でも当てはまる課題ですし、IT部門によるシステム変更の影響分析や障害時の原因分析でもデータカタログを活用できます。
さて、これまで見てきたデータカタログの位置づけや背景を踏まえて、インフォマティカとしてどのようなソリューションを提供しているかご紹介したいと思います。
インフォマティカで提供するデータカタログソリューションの中核に位置する製品が、Enterprise Data Catalog (通称EDC) です。この製品を我々は、企業の中のGoogleと呼んでいます。何でも調べたいことを小さな検索窓に入力して検索!EDCもそのような使い勝手を提供します。求めている情報がどのシステムのものかを意識しなくても、IT担当者でなくても、キーワードさえ打ち込めば関連性のあるデータ資産を推測しカタログから抽出します。データ資産には、項目名・テーブル名・ファイル名だけでなく、ビジネス用語・データドメイン(種類)・ステークホルダーなどの付加属性も含まれます。
付加属性というのは、システムから自動的に抽出されるメタデータ以外の情報です。例えば、ステークホルダー(管理部署・責任者 )や・データの有効性・機密分類・ライフサイクル・データ配置ゾーン・ユースケースなどがあり、これらを付加・利用することでデータカタログの価値が高まるのです。
検索性の前提条件として、各システムに存在するメタデータを収集し一元管理する必要があります。EDCでは標準機能として様々なアプリケーション・データベース・SaaS等へのメタデータスキャナーを提供しているため、接続情報さえ登録してしまえば、自動的に収集することが可能です。
最新版のEDCでは、SNS機能が搭載されました。レビューとQAです。データカタログを利用した人が、対象のメタデータに対し評価(レーティング)しレビューコメントを残すと他の人がこの情報を参考にできます。又、分からないことがある場合はQ(質問)を投稿することで、データオーナーやデータスチュワードなどから回答を得る事ができます。こうやって、自分が必要とする情報に、早く正確に到達することができ、又そこで実施した活動が他の利用者のための資産にもなる、有機的なプラットフォームと言えると思います。
データカタログを求められる方にとって、そのシステムをスクラッチで開発することは時間やお金の面で大きな負担になるため、インフォマティカのようなパッケージ製品を求められると思いますが、その際には以下の点に注意して下さい。
- 接続性(自動的に各種メタデータにアクセスできるか)
- 性能・拡張性(膨大なメタデータをレスポンス良く処理できるか)
- AI活用(メタデータ同士の関連性を自動処理するためのAIエンジン利用)
- 利便性・コラボレーション(IT知識のない利用者自らが使えて、利用者同士でカタログの品質を向上させる)
- データプレパレーション(分析前のデータ準備)
- セキュリティ(メタデータや実データの公開範囲を制御)
企業全体で利用できるデータカタログプラットフォームをご採用いただき、データ利活用・データガバナンスの取り組みをより一層推進していって頂ければと思います。