データマートで部門ニーズに応え続けることは正解なのか?
データマートとデータウェアハウスの違い
データマートとは、特定の部門ユーザーの集計・分析ニーズに合わせて、あらかじめ用意されたデータセットのことです。データウェアハウスと比較して説明されることが多いのですが、データウェアハウスが全社レベルのデータ分析基盤であるのに対して、データマートは、各部門のユーザーが使いやすいようなサイズで、利用目的に特化したデータだけを抽出した小規模であることが一般的です。
データマートとデータウェアハウスの違いは、一般消費者が買い物に行くのに例えると分かりやすいです。データウェアハウスは、商品が小売店舗に出荷されて店頭に並ぶ前にある「データの倉庫」であり、あらゆる種類の大量の商品が、屋根まで届くほどの高さの棚に、一定のルールに従って、時系列で理路整然と保管されています。
倉庫に行けば、今日の晩御飯の食材から日用品まで何でも豊富に置いてありますが、例えば一番上の棚にある段ボールを取とうとしても、クレーンの操作がわからなければ手に取って中身を見ることすらできません。膨大で多様なデータが保管されているデータウェアハウスから、一般ユーザーが直接データを取り出して使うことには、高いハードルがあるのです。
これに対して「データの市場(mart)」であるデータマートは、近所のスーパーのような存在です。今日の献立をなんとなく考えながら、財布を片手にス―パーの自動ドアを通って、商品の陳列棚を見て回ります。スーパーは、消費者が日常的に必要とするモノを想定して品揃えしているので、品数に圧倒されることもありません。
いつも通りの場所に商品が配置されているので、目的の列へ簡単に移動し、商品を手に取っては鮮度を確かめながら、30分程で必要な分だけすぐに買うことができます。
この例のように、データマートは、ユーザーがわざわざ倉庫に行かなくても、欲しいデータだけをすぐに手に入れられるようにするための「部門最適化」のデータ基盤です。部門のニーズを想定して、あらかじめデータウェアハウスから一部のデータを持ってきておいて、利用目的に合った使いやすいサイズに加工して用意しておくことで、業務ユーザーが集計、分析しやすいようにしています。
また、データウェアハウスを介せずに、部門で利用している業務システムから直接データを抽出してデータマートを作成する場合もあります。狭義的には、業務担当者が個人で管理しているエクセルでさえ、ひとつのデータマートの形として捉えることができますが、本稿で言及するデータマートは、部門ユーザーの分析ニーズに合わせて、データウェアハウスから部分的に抽出、加工して作成する小規模なデータセットのことを指しています。
データマートの鮮度と質の問題
今、多くの組織が抱えているデータマートの問題は、データソースであるデータウェアハウスにあるデータの種類と質、更新頻度、さらにはデータウェアハウスを操るための技術的なスキルの影響を受けることに起因しています。
データは爆発的に増加し続けており、ITリソースは慢性的に不足しているのが現状です。技術的・人的リソースがボトルネックになっているような状況で、データウェアハウスがタイムリーに更新されなければ、データマートのデータの鮮度は悪くなり、何週間も前のデータをもとに業務を分析することになります。
業務上必要なデータの信頼性を担保し、業務との関連性の高いクリーンなデータを、時間内に鮮度の高い状態で提供できるような手段がなければ、データの価値を収益化し、リードタイムを短縮することはできません。 データ量とスピードの爆発的な増加に追随するための手段 近年、デバイスの多様化と常時接続するセンサー機器の増加に伴い、あらゆる業務現場でデータが年中無休で生成、収集され続けています。
このデータ量の爆発を如実に表しているのが、世界のデータ量(世界全体で生成、取得、複製されるデータ量)の90%が、2013年からわずか2年間で作成されたものであるという衝撃的な事実です。さらに、データは毎年40%のペースで増え続けており、世界人口の75%がデータを日々利用しています。IDC社は、データ量が2025年までに1.4ZB(ゼタバイト)にまで増え、その約30%がリアルタイム情報になると予測しています。
このようにデータの量とスピードが急増するだけでなく、クラウドやオンプレミス、モバイル、社内のファイルなどの多様なデータソースにデータが分散する中、これまでのような手順で、データを構造化してからデータウェアハウスにロードし、そこから利用部門の用途に合わせてデータマートと作成するような、長く時間のかかるステップをかけているようでは、変化のスピードに対応することはできません。
データをカタログ化することで、データ活用を民主化する
このような状況を打破するための処方箋が、データカタログです。データカタログとは、データソースの場所や種類に関係なく、全社のあらゆるデータ資産の属性を自動収集して分類することで、誰でも簡単にデータを探索することが可能なメタデータ管理のツールです。
オンプレミスやクラウドに分散する様々なアプリケーションやデータベースに「接続するだけ」で、自動的にメタデータ情報を収集して、データのキュレーション、タグ付け、分類、類似データ検出、業務用語と技術データ資産の関連付けを行い、組織全体のデータのインベントリを作成してくれます。
まるでアマゾンのショッピングサイトで欲しい商品を探すのと同じような感覚で、欲しいデータのキーワードを入力して検索すれば、AIが関連性の高いデータ資産を推測して、カタログの中から、最も関連性の高い信頼できるデータをレコメンドしてくれます。
さらに、最新のデータカタログソリューションには、SNS機能が搭載されているため、カタログを利用した人がデータ資産へタグ付けした内容や投稿したレビューを、他の利用者と共有して、関係者全員でデータの価値を高めることができるのです。
複雑なデータ資産の管理はデータカタログで解決するのが◎
今日、多くの企業がデータカタログを導入し、デジタルトランスフォーメーションの基盤として活用しています。従来のように、データウェアハウスありきの分析データ管理アプローチでは、関連するすべてのデータソースを調べてデータを加工し、業務ユーザーが利用できるまでに、多くのリソースと時間が必要でした。
しかし、データカタログを活用することで、より多くのユーザーがより多くのデータに迅速にアクセスし、セルフサービスでデータを活用できる基盤を作ることができます。 テクノロジーが圧倒的なスピードで変化し、データが増え続ける中、あらゆるデータのディスカバリが可能なエンタープライズデータカタログを導入することが、変化対応力の高いデータドリブンな組織になるための第1歩となります。