Big Dataは超低速な非構造化データであるため、リアルタイムでは役に立ちません。データから価値を引き出すには、この点を踏まえておく必要があります。
ビジネスとテクノロジーの世界では、ほとんどすべてのことが議論の対象になってしまいますが、ひとつだけはっきり言えるのは、賢い組織はデータに基づいて意思決定を行っているということです。データの量や複雑性が増大するに伴い、そうしたデータの処理に対する需要も増えてきました。それでは、意思決定者が必要な時にリアルタイムデータを入手できるようにするには、どうすればいいのでしょうか?
残念ながら、従来の抽出、変換、ロード(ETL)ツールは、リアルタイムな更新には不十分です。複数のデータバッチをすべてステージング、更新、移動するとなると、かなり難しい作業となります。特に、データ作成や変更の日付を記録しないことが多いレガシーアプリケーションがベースとしてインストールされている場合、この問題はさらに複雑化します。
変更データの捕捉
この問題の解決策の1つに、変更データキャプチャ(CDC)があります。CDCは、エンタープライズデータのソースに加えられた変更の特定、捕捉、提供に基づくデータ統合へのアプローチです。CCDCは、イベントベースのデータ統合としても知られているもので、新しい概念ではありません。しかし、CDCは、挿入、更新または削除されたデータのみをフラグ付けできるという点で有用です。その結果、必要に応じて、データのより小さなサブセットを迅速に移動することができます。
CDCには、次のような利点があります。
- ビジネスニーズへのIT部門の反応性が高まる
- ビジネスの俊敏性の向上
- リソース利用率の低減を通じたIT関連コストの削減
またCDCは、金融機関、製造業者、保険会社など、リアルタイムな情報を利用して大規模なバッチ作業をルーチンとして実行している業界分野にも利点をもたらします。CDCによって変更がフラグ付けされていると、バッチ全体ではなく変更データのみに対してクエリが実行されます。フラグ付けがないと、大量のデータに対してクエリを行うため、リアルタイムなレポーティングの妨げとなります。
Big Dataにとって最適な方法とは言えないCDC
CDCが利点を生かせる分野がある一方で、データが大きすぎて捕捉できないような状況も存在します。多くの人々が、Big Dataは、それを活用するプロセスや人材さえ整えば、そのままで使えるようになると考えていますが、Big Dataの大部分は、モバイルデバイスやソーシャルネットワーク、ログファイル、マシン、ウェブベースのアプリケーションからの非構造化データまたは半構造化データで構成されています。
CDCは、フラットファイルで動作するため、データ変更が予想外に不可視な状態で行われた場合は効果を発揮できません。これを、データベースやデータウェアハウスに存在する構造化データと比較してみましょう。構造化データの利点は、構造化されているという点に尽きます。このため、CDCは簡単に変更を検出できます。構造化データでない場合、開発者は、効率的なBig Data処理のために「tail」および名前付きパイプファイルを使って変更のみをフローさせる必要があります。
IT部門および開発者がCDCを活用してリアルタイムに近いデータを提供する方法については詳しくは、ホワイトペーパー「Change Data Capture: Driving Results with Event Driven Data(変更データの捕捉:イベント駆動型データから成果を引き出す)をお読みください。
資料
- 1「What Data Discovery Tools Really Do」、Adrian Lane著、Dark Reading、2010年1月20日
CDCは、挿入または更新されたデータのみをフラグ付けできるという点で、有用です。その結果、必要に応じて、データのより小さなサブセットを迅速に移動することができます。