データレイクとは?データレイクの落とし穴と効果
あるBI担当者に、「データレイクとデータウェアハウスって何が違うのですか?」と質問してみたところ、「データレイクには何でも入れられるけど、データウェアハウスには決まったものしか入れられないんだよ。」という答えが返ってきました
そこで、「では、データレイクを使うと、どんなメリットがあるんですか?」と聞いてみると、「データレイクは安いんだよ。だから、容量とコストを気にせずに、いくらでもデータを蓄積できるんだ。それに、使えそうな情報だと思ったら、とりあえずデータレイクに入れておけば、誰かが活用して分析してくれるし、AIも使えるから、それで新しい洞察を発見できるんだよ。」という答えでした。
彼の言っていることは、非常に簡潔で正しい理解です。しかし、その言葉の裏には、「データレイク」の真の威力を発揮させるためのテクノロジーが複雑に絡み合っていることに留意する必要があります。
1. データレイクとは
データレイクとは、ビッグデータをそのまま(生データのまま)格納できるストレージリポジトリのことです。特に、音声や動画、SNSのログなどを含むあらゆる形式のデータ(非構造化データ)を、そのままの形式で貯めておけるのが利点です。
データレイクが蓄積できるデータの種類(非構造化データ)について詳しくはこちらの記事を参考にしてください。
データレイクが必要になった理由は、大きく分けて2つあります。
一つ目は、「データレイクには何でも入れられるけど、データウェアハウスには決まったものしか入れられないんだよ。」と言った通り、テーブル構造に縛られたリレーショナルデータベースでは、非構造化データに対応できないからです。データレイクは、スキーマをあらかじめ定義する必要がなく、データを入れる時に決まった形式に整形する必要がありません。生データのままストレージに保存しておいて、使いたい時にデータを参照することができます。
二つ目は、「データレイクは安いんだよ。だから、容量とコストを気にせずに、いくらでもデータを蓄積できるんだよ。」と言った通り、膨大な量と猛烈なスピードのビッグデータをリアルタイムに格納するには、データベースでは時間とコストと労力がかかりすぎて対応できないからです。
センサー技術の高度化、デバイスの軽量小型化、ネットワークの普及とスピード化によって、エッジデバイスで収集できるデータは、爆発的に増えました。これらのデータを整形してデータベースに格納するには、特別な知識と技術が必要なうえに、スキーマの定義や変更、ETL処理に時間がかかります。さらに、膨大な量の記憶領域を確保するには高額な費用がかかります。こうしたリソースの制約で、データを活用できるまでの待ち時間が長くなればなるほど、データの鮮度が落ちて、データの価値は低くなってしまいます。
データレイクなら、構造化の手間をかけずに瞬時に格納できるうえに、安価なストレージを無制限に使えることから、コストを気にせずに大量のデータを記録することができます。さらに、データの用途が決まっていなくてもデータレイクに格納できるので、IT技術者のお膳立てを待つ必要がなく、いつでも新鮮なデータを取り扱うことができます。
データレイクとデータウェアハウスの違いについて、詳しくはこちらの記事を参考にしてください。
2. データレイクの落とし穴
さて、ここでもう一度、データレイクについてのBI担当者の回答を読み返してみます。「使えそうな情報だと思ったら、とりあえずデータレイクに入れておけば、誰かが活用して分析してくれるし、AIも使えるから、それで新しい洞察を発見できるんだよ。」
果たして、本当にそうでしょうか?
第一の問題は、「とりあえず入れておく」という点です。
確かに、データレイクには用途を決めずに何でも入れておくことができますが、蓄積に適した方法や管理手段がなければ、ただデータを集めただけの見通しの悪い「沼」なります。
どんなデータが入っているのか?どれを信頼してよいのか?自分の欲しいデータをどうやって探せばよいのか?どう扱っていいのか?という質問に、誰も答えられない状況に陥ります。
データレイクを沼地化させないためのデータガバナンス5つの要件については、こちらの記事を参考にしてください。
何でもかんでもデータレイクに入れたまま放置してしまうと、結局は使い勝手が悪くなり、誰にも利用されなくなります。まず、データの検索性を担保するためには、データレイクに入れる時に、データが持っている属性(メタデータ)を記録することで、欲しいデータをすばやく見つけられる仕組みが必要です。
データの出所(ソース)、関連する場所、顧客、所有者、データの粒度、種別、形式などのメタデータをカタログ化し、コンテキストの関連性からタグ付けして、データを整理整頓する必要があります。タグ付けする際に、社内用語を定義したビジネスグロッサリがあれば、検索キーワードとの相関が高くなるので役立ちます。メタデータで整理、分類されていれば、データレイク内のデータを検索するスピードと精度は格段にあがります。
また、データの信頼性を確保するためには、データレイクを定期的に掃除して、ゴミや泥を取り除き、どんな魚がどんな風に泳いでいるのか見えるように清浄化するクレンジングが必要です。わかりやすい例で言うと、商品名や顧客名、金額に半角と全角の数字が混在している、漢数字が使われている、税込みと税抜きが分かれていない、日付が西暦と和暦になっている、数量の単位が違う、集計に使えるカテゴリーがないなど、正規化しなければならない問題は山積みです。
さらに、誰でも使ってよいデータなのか?機密情報や個人情報が含まれているのか?データの漏洩の心配はないのか?といったデータセキュリティを保護できる仕組みも必要になります。
その点、データレイクソリューションを提供するベンダーなら、こうした問題を解決するための豊富な知識と高度なテクノロジーツールを持っています。データガバナンスやデータセキュリティ、データ品質を向上させるためのツール、不要になったデータを安全に除去するアーカイブツールなど、さまざまな機能を用意してくれています。
第二の問題は、「誰かが活用して分析してくれるし、AIも使えるから、それで新しい洞察を発見できる」です。
データレイクには、整形されていない生のデータが入っているため、誰でも自由に使えることを期待するのは無理があります。技術的な知識のない人が、いきなりログファイルを見ても、何のことだかさっぱり理解できません。格納前に整理されないので、ビジネス向けに使う時には、データを理解して変換できる専門のツールと知識が必要です。つまり、データレイクには、使う人の用途に合わせて、使いたい時にデータを準備してくれるデータプレパレーション機能が必要です。
また、泳ぎの素人がいきなり湖に飛び込んでも、魚を探して捕まえられるように、ユーザーの自由な検索を可能にするセルフサービス機能が必要になります。すばやく検索できて、使い勝手もよく、視認性の高いツールであれば、みんなが積極的に使うようになり、データを分析するという文化を社内に根付かせることができます。
もちろんAIを活用できることは、絶対条件です。データレイクに入ってくるデータの量と種類とスピードは、とても人間の手に負えるものではありません。AIを使って、膨大かつ多様なデータから、相関の高いデータを自動的に探索し、メタデータを抽出、タグ付けして、高速に検索できるようにすることが必要です。そうすることで、データサイエンティストは、データレイクのさまざまな生データを使って、サンドボックス環境で試行錯誤しながら新たな分析モデルを発見することができます。また、業務ユーザーは、IT部門がデータマートを作ってくれるまで待たなくても、セルフサービスで業務に関連性の高いデータを見つけられるようになります。
3. データレイクとAIの相乗効果
データレイクに蓄積された膨大な非構造化データが使えるようになったことで、機械学習のスピードとAIの活用領域はさらに広がり、進化しています。
例えば、工場の設備や建物の写真から、亀裂や破損などの故障の原因を自動検知することで、タイムリーに予防保全を実施して、設備の安全性を確保し、ダウンタイムを減らすことができます。また、生産ラインを常時監視することで、ストリーミングされてくる動画から「逸脱」を自動検知して、製品の不具合を早期に発見したり、作業員のムダや機械 のアイドリングを発見して改善することで、時間の短縮し、コストを削減することができます。あるいは、汚染された食品をすばやく隔離できるようになって、リコールの莫大な被害を回避することができます。
輸送業界であれば、車載カメラの動画やオープンデータの渋滞情報を使うことで、集配依頼のあった場所から一番近くにいるトラックを配車するよりも、トラックの積載量と渋滞状況、目的地までの距離、燃費などを総合的に考慮した結果、最適なトラックを集配させることで、輸送コストを削減することが可能です。
また、小売業界では、監視カメラの映像から、入店者数を計測して、店舗の集客状況から販促キャンペーンの効果を分析したり、顔認証で顧客を識別することで、顧客に関連性の高い情報をスマートフォンに配信したり、顧客の表情を読み取ることで、接客サービスの質を評価して改善することができます。
データウェアハウスをベースとした従来のパターン化された分析では解決できないような、因果関係が複雑なテーマについて、データレイクに蓄積されたデータを活用することで、データサイエンティストが新しい法則を見出し、その分析モデルを「知恵」としてAIに与えることで、AIがビジネスの新たな利益創出につながるアイデアを助言してくれるような好循環を生むことができるのです。
データの用途にあわせて設定したデータ品質の基準(ルール)と照らし合わせて、データクレンジングを自動的に実行し、粗悪で整合性のないデータを検出・修正してくれる人工知能(AI)を搭載したデータレイク管理ソリューションが必要不可欠なのです。
AIを活用したデータ品質の向上とビッグデータの活用に必要な4つの条件について、詳しくはこちらの記事を参考にしてください。
4. まとめ
世界人口や通信可能なデバイス数の増加に伴い、グローバルに生成されるデータ量は2025 年に 163ZB(ゼタバイト)と 2016 年比で約 10 倍の規模に達すると予想されています。そのうちの約8割が非構造化データであると言われています。ビッグデータの大半を占める非構造化データを利活用するためには、既存のデータウェアハウスとの互換性を重視しつつ、オンプレミスからクラウドへの移行にともなうデータ環境の変化に対応し、データレイクのデータ品質とデータセキュリティを維持できるガバナンスを導入し、データカタログによってアクセス性を高められるようなソリューションが求められます。