ELTプロセス:高度なプッシュダウンの最適化vs.オープンデータベース接続のプッシュダウン
あなたが現在、ELT(抽出、ロード、変換)によってデータパイプラインを処理しており、さらにPowerCenterもしくはIntelligent Data Management Cloud(IDMC)を使っている場合、おそらくOpen Database Connectivity(ODBC)ベースのプッシュダウンを利用した可能性が高いかと思われます。プッシュダウンとは、ELTの背後にあるメカニズムであり、変換ロジック全体をSQLクエリに変換し、基盤となるターゲットにプッシュする機能です。これにより、変換ロジック全体がSQLクエリにカプセル化され、マッピングの処理が高速になります。また、ターゲットとインフォマティカエンジンの間で大量のデータ移動を行う代わりに、同じクエリが基盤のターゲットで実行されます。
インフォマティカでは昨年、高度なプッシュダウン最適化(APDO)機能を導入しました。APDO機能は、さまざまなクラウドデータレイク・データウェアハウスの使用事例やパターンを処理する設計が施されています。変換ロジックをターゲットにプッシュダウンするという目的は同じでも、APDOベースのプッシュダウンはODBCベースとは多くの点で異なります。
本ブログでは、APDOベースとODBCベースのプッシュダウンの違いについてご説明します。また、お客様のELTプロセスには何が最適なのかがわかるガイドラインもご提供します。
APDOまたはODBCベースの最適化を使用するタイミングに関する6つのヒント
1.ODBC接続を確立させる
ODBCプッシュダウンでマッピングを実行する際の基本として、最初にODBC接続を確立させるというものがあります。一方、APDOはすべてのネイティブコネクタ機能をサポートしています。そのため、追加の接続を作成する必要がありません。
2.ODBCプッシュダウン
ODBCプッシュダウンは、ODBCベースのターゲットにデータをプッシュダウンするのに役立ちますが、クラウドデータウェアハウスやデータレイク(CDW/DL)に関しては、機能が制限されます。現在のODBCプッシュダウンは、一般的にディメンションモデリング(ディメンション、ファクト、SCDなど)を使用する従来型のデータウェアハウス・パターンのみに対応しています。その他のパターンには、データボルト、運用データストアなどがあります。一方、APDOは追加の使用事例をサポートするように設計されています。例として挙げられるのが、クラウドデータレイクからクラウドデータウェアハウスへのデータ移動です。また別の使用事例として、従来のクラウドデータウェアハウスのパターンに対するサポートも行います。
3.APDO
ODBCプッシュダウンはレガシー機能であると見なされており、新たな機能を追加するように設計されていません。これに対してAPDOは、高度なCDW/DLパターンと関連した使用事例を処理するように設計されています。そのため、追加用の新機能が積極的に開発されています。
4.APDOの高度なプッシュダウン
クラウドデータ統合に関して、APDOはODBCベースのプッシュダウンよりも広い範囲に適用させることができます。APDOの高度なプッシュダウンは、あらゆる主要なエコシステムとクラウドデータウェアハウス(Snowflake、MicrosoftAzure、GoogleBigQuery、AmazonRedshift、Databricks)をサポートしています。また、最も広く使用されている変換や関数、式もサポートしています。
5.ODBCプッシュダウンを実行
ODBCプッシュダウンを実行するには、安全なエージェントが不可欠です。一方、APDOは、Secure Agent、インフォマティカのランタイム環境、Advanced Serverlessで実行できます。
6.ライセンス
ライセンスに関しては、APDOには個別のライセンスが必要です。インフォマティカのIDMCを使用しており、その使用量に応じた料金を支払うモデルをご利用の場合は、パッケージにライセンスが含まれています。また、APDOメータリングはCloud Data Integration(CDI)とは異なる方法で行われることに注意することが重要です。たとえば、APDOフルプッシュダウンモードでマッピングを実行している場合、CDIではなく高度なプッシュダウンに対してメータリングが行われます。ODBCプッシュダウンには、個別のライセンスはありません。CDIでODBCプッシュダウン最適化を使用している場合は、CDIのメータリングに基づいた計測が行われます。
以上を踏まえた上で、インフォマティカのおすすめする手法をご紹介します。
● CDLとCDWの間、またはCDW内のクラウドでデータを処理することが多い場合は、幅広い機能を扱えるAPDOをおすすめします。
● オンプレミスのデータウェアハウスを使用している場合、またはODBCベースのターゲットを使用している場合は、ODBCベースのプッシュダウンをおすすめします。
----------------------------------------------------------------------------
本ブログは2022年6月22日のARKAPRAVO CHAKRABORTYによるThe ELT Process: Advanced Pushdown Optimization Versus Open Database Connectivity Pushdownの翻訳です。