データ統合とデータマネジメントにおいてリバースETLが勢いを増す理由
データプラットフォームと最前線のアプリケーションの進化
ここ数十年で、企業データおよびアナリティクスの状況はパラダイムシフトを迎えました。当初、企業はRDBMS(リレーショナルデータベース管理システム)を使ってデータウェアハウスを構築していました。しかしそのツールではスケールアップに対応できず、業界のニーズに追いつけていません。たとえば現在では、テラバイトからペタバイトに及ぶビッグデータ、バッチ処理からセミリアルタイム/リアルタイム処理、構造化されたフォーマットから半構造化/非構造化フォーマット、そして高度なコンピューティングに至るまで、幅広い処理に対応する必要があります。こうした状況は、現代的なクラウドネイティブなデータウェアハウス普及の呼び水となりました。これならクラウドベースで一元的に、データを変換、保管することができるからです。その目的はAI/MLエンジンによって、自動予測モデルを構築し、組織全体に関する分析レポートを作成することです。
Salesforce、Workday、Marketo、Netsuiteといった最前線のアプリケーションも、着実に変化してきました。ユーザーが、よく使うアプリの中でどんな情報でも得られるように、(他のアプリケーションへ切り替えることなく)データウェアハウスから正規化されたデータを引き出せる必要があります。それによって時間を節約でき、生産性の向上につながります。
(図1:リレーショナルデータベースからデータウェアハウスへの変遷)
一般的なデータ統合プロセス
一般的なデータ統合なら、まずオンプレミスのリレーショナルデータベースとその他サードバーティーのアプリケーションからデータを抽出します。次に、そのデータにエンリッチング、再構築、クレンジング、複製を行い、利用可能なフォーマットへと変換します。最後に、そのデータをデータウェアハウスに格納します。ストリーミング型データ処理、つまりデータインジェスチョンのユースケースでは、データはクラウドデータウェアハウスかデータレイクに格納され、ETL(抽出、格納、変換)のプロセスを通じて変換されます。
(図2:ETL/ELTによるクラウドデータウェアハウスへの統合の流れ)
リバースETLとは?
企業・組織の中で「信頼できる唯一の情報源」を共有する場ができたら、次はそのデータを、CRM、eコマースといったクラウドアプリケーションを含む、最前線のアプリケーションと共有する段階です。営業、マーケティング、製造、サポート、アナリティクスといったチームはみな、一貫性、信頼性のある同一のデータに依存しており、しかもそれぞれ、使い慣れた好みのアプリからアクセスを好む傾向があります。データウェアハウスから整理統合されたデータを引き出し、最前線のアプリケーションへ移動させるこの流れを、リバースETL(抽出、変換、格納)と呼びます。
一般にリバースETLは、ポイントツーポイントの統合のようにデータを抽出して、それぞれのアプリケーションへロードできさえすればよいと考えられています。たとえばある販売業者が、あらゆる角度から見た顧客の全体像をつかむ必要があったとしましょう。しかし、アプリケーションの切り替えや複数のアプリケーションを統合せず、1つのCRMアプリを使うだけで一元化されたクラウドデータウェアハウスから完全な情報にアクセスできるとしたら、その販売業者はデータソースの多さやデータの正確さに不安を抱くことなく、1つのアプリからあらゆるデータにアクセスできるようになるのです。
(図3:クラウドデータハウスからSaaS、アプリ、データベース統合へのリバースETLの流れ)
リバースETLのユースケース
リバースETLの主なユースケースは3つです。
1. データインテリジェンス:リバースETLの主なユースケースは、データを分析して意思決定を支援するBI(ビジネスインテリジェンス)ツールと、データウェアハウスの統合です。データサイエンティストとビジネスアナリストが予測を立て計画を策定する上で、必要なデータの全体像をつかむのに役立ちます。
2. データフォーマット:個々の利用者や部署は、必要に応じてさまざまなフォーマットでデータを提示したいと考えます。例えば、CSV、OData、XML、JSONといったフラットファイルのフォーマットです。
3. データソースのエコシステム:どの企業・組織も、日々の業務のユースケースに取り組むため、数多くのアプリケーションを使用しています。リバースETLによって、データをウェアハウスから取り出し、業務に使われるアプリケーションやツールに移動させることができます。
リバースETLツールの評価方法
ご利用のデータ統合ツールは、リバースETLに適していますか?データ統合ソリューションの評価時に求められる重要な機能をいくつか紹介します。
· 接続しやすさ:ツールは、ビジネスで使われるすべての、少なくとも大部分のアプリケーションに対応でき、ビルトインコネクタでの手軽な統合を実現できなければなりません。AWS RedshiftやGoogle BigQuery、Snowflake、Azure Synapse、Databricksのような、そのクラウドやハイブリッドデータウェアハウスに固有のコネクタが良い例です。
· ユースケース対応力:リバースETLは、主なユースケースに対応し、スケールアップやプッシュダウンの最適化に対しては臨機応変であり、バッチ処理をともなう大容量のリアルタイム統合にも対応していかなければなりません。
· 使いやすさ:リバースETLを利用するのはおもに、社内のユーザーとデータサイエンティストです。最低限の技術的知識しかなくてもETL統合を行えるよう、直観的に使えるツールが最適です。そのため業務を加速するなら、オートサジェストや既成のテンプレートといった機能を備えているのが理想的なのです。
· エラー処理と監視:そのツールは効率的で一貫性があり、エラーが発生した場合にも信頼できるものでなくてはなりません。また、統合エコシステムの全体ビューも備えているべきです。
インフォマティカのデータマネジメントソリューションの活用方法
インフォマティカのIntelligent Data Management Cloud(IDMC)はデータとアプリを管理できるエンドツーエンドのプラットフォームで、ETLやELT、リバースETLといった、多様なデータ統合のユースケースを取り扱えるように設計されています。また、生産性の向上、リソースの最適化、業務の簡素化にもつながります。
以下、IDMCの3つの主なメリットです。
1 シンプルさ
· AI/MLエンジン搭載によりマルチクラウドのインテリジェント統合を実現。
· 必要なビジネスユースケースすべてを処理。
· リアルタイム型、もしくは大容量つまりストリーミング型のインジェスチョンなど、複数のデータ統合パターンに対応。
· フレキシブルな消費量ベースの価格設定モデルを活用。
· データ移行タスクには、使いやすいウィザード中心の選択法を使用。
2. 生産性
· 機密情報向けに次善の変換オプションを推奨し、データパイプラインを素早く構築。
· 自動スケーリングで作業処理を最適化、人の介入を必要としない自動チューニングでパフォーマンスを改善。
· 動的なマッピングフレームワークで完全な再利用性を実現、手軽な変換で作業時間を短縮。
3. 拡張性
· 高度なプッシュダウンの最適化により、データ出力のコストなしで高速処理を実現。
· 最適化されたクラウドデータ統合のエラスティックな処理により、高いパフォーマンスを実現。
· 当社のAIエンジン、CLAIRE®によって、自動スケーリングと自動チューニングを改善。
リバースETLのためのインテリジェントなデータマネジメントクラウド
構造化または非構造化と、データのフォーマットにはさまざまな種類があり、正規化された状態・非正規状態が混在しながらデータウェアハウス内にストリーミングされます。下流アプリケーション、すなわち最前線のアプリケーションでデータを利用するには、正規形のテーブルからポイントツーポイントの統合を行うか、クエリを記述して、複数の非正規状態のテーブルを結合するかという2通りの方法があります。インフォマティカのIDMCは、リバースETLのユースケースを処理するため、ウィザード中心で直観的に操作できる2通りの機能を備えています。
1. データ移行タスク
Data Transfer taskを使って、あるクラウドウェアハウス内から、あるビジネスアプリケーションへ、データを移行しましょう。ポイントツーポイントのデータ移行を行う上で使いやすく、技術者ではないユーザーでもこのタスクを作成できます。たとえば、クラウドデータハウスからSalesforceのアプリケーションへ、オポチュニティとラインアイテムを移動させたい場合などに最適です。
(図4:操作中の動的マッピングタスク)
2. 動的なマッピングタスク
dynamic mapping taskを使って、1つのタスク内で複数のジョブを作成したり、バッチ処理を行ったりしましょう。たとえば、ある共通の統合パターンがある場合、または複数の非正規状態のテーブルからデータを読み取る必要がある場合に、SQLクエリを記述して複数のテーブルを結合し、データを抽出し、ビジネスアプリケーションにロードすることができます。データを移動させる前に、下流アプリケーション固有の変換を適用することも可能です。このタスクは、拡張パラメータ化サポートと、同時実行によって向上したパフォーマンスによって、再利用可能なフレームワークを提供します。
(図5:ダイナミックマッピングタスクの動作イメージ)
次のステップ
30日間無料トライアルで、コスト削減や、市場投入への時間短縮に役立つ当社のクラウドデータ統合ソリューションを、今すぐご体験いただけます。また、当社のeブック『インテリジェントクラウドデータウェアハウスとデータレイクを構築する6つのステップ』では、自動化されたインテリジェントデータマネジメントによって価値を発掘し、ROIを高める方法について学んでいただけます。
---------------------------------------------------------------------------------------------------------
本ブログは2022年4月21日のKARTHIKEYAN MANIによるWhy Reverse ETL is Gaining Momentum in Data Integration and Data Managementの翻訳です。