いまさら聞けない「ETL」とは?

May 21, 2019 |
Akiyoshi Sekine

昨今では企業活動の中で蓄積されたデータが膨大となり、また色々なシステムが乱立、いわゆるサイロ化してしまう現状が問題視されつつも、他方ではそれら珠玉混合のデータから的確に必要なデータのみを取り出し、すばやく、正しく分析を実施、経営戦略の策定に役立てる事が求められています。

大量なデータ、またはサイロ化された様々なデータ諸元から必要なデータを抽出し、重複や不整合を解消しつつ最適な形に整形して分析基盤に連携するため、ETL(Extract、Transform、Load)ツールを活用する企業が増えてきています。

ここではデータの有効活用する為のETLツールについて解説します。

 

ETL(Extract、Transform、Load)とは?

ETLとはExtract(抽出)、Transform(変換)、Load(挿入/格納)の頭文字を取った略語になります。
ETLは、複数のソースからのデータを統合するために使用される3つのステップ(抽出、変換、 挿入/格納 )を指すデータ統合の一種です。これは、データウェアハウスを構築するために主に使われます。このプロセス中には、データをソースシステムから取得(Extract)され、分析可能な形式に変換(Transform)され、データウェアハウスまたは他のシステムに保存(Load)されます。

各役割については下記になります。

 

Extract(抽出)

企業活動で日々生成される、過去から蓄積されてきた膨大なデータの中から、目的や必要に応じたデータを抽出します。

 

Transform(変換)

業務やシステムにより異なるデータフォーマットを統一したり、Load先が求める形にデータを変換します。

 

Load(挿入/格納)

加工変換したデータをデータマートや分析基盤に挿入/格納します。

 

ETLの歴史

ETLの歴史は古く1970年代、組織がさまざまな種類のビジネスデータを格納するために複数のデータリポジトリやデータベースを使用し始めました。しかし、さまざまなデータベースに分散したデータを統合する必要がありました。このようにETLは、異なるデータソースからデータを取得し、それをターゲットソースまたは宛先にロードする前に変換するための標準的な方法として誕生しました。

それから1980年代後半から1990年代初頭にかけて、データウェアハウスが登場しました。異なるタイプのデータベースであるデータウェアハウスは、メインフレームコンピューター、パーソナルコンピューター、スプレッドシートなど、複数のシステムからのデータへの統合アクセスを提供しました。ただし、部門や利用者が異なれば、さまざまなデータウェアハウスで使用する異なるETLツールを選択することがあります。またデータ量が増えるにつれて、データウェアハウスが増え、ETLツールはより洗練されたものへと進化していきました。

 

ETLツールを使う理由

企業内には導入時期などに応じて様々なシステムが分散して存在しており、それぞれが保有するデータの型やスタイル、データの粒度もバラバラです。
こうしたバラバラのデータを結合・連携してデータマートや分析基盤に渡す為には、それぞれのデータを加工、整形し、統一した形に整形する必要があります。
ETLツールを利用しない場合、これを実現する為にはプログラム言語によるコーディングを行なうことが主流です。(あるいは、すべてのデータを表計算ソフトに貼り付け、切り貼り加工している、という強者なお客様もいらっしゃるかもしれません。)

ETLツールはGUI(グラフィカルユーザインタフェース)の開発ツールを利用し、マウス操作だけでデータ統合処理を容易に開発出来るのが特徴です。
プログラミング知識やコーディングスキルが不要で、マウスのクリック、ドラッグ&ドロップだけで開発が出来る事から、従来型・コーディング型のデータ連携に代わるデータ連携基盤ソリューションとして採用を決めるお客様も増えてきています。

特にインフォマティカの提供するクラウドETLツールIntelligent Data Management Cloudでは、必要となる加工変換ロジックを変換部品として提供、ノンコーディング開発環境を提供しながら、各変換処理では列(項目)レベルまで視覚化できる為、どの列とどの列を結合するのかを確認しながらデータ連携処理を開発出来る事が特徴です。

ではIntelligent Data Management Cloud等のETLツールが活躍する具体的な場面についても見てみましょう。

 

  • データの変換や加工

   データベースやファイルなど多種多様なデータ群か必要なデータを取り出し、加工変換を簡単に行うことができます。

  • 高速処理

   データ変換・加工を効率良く実施する為のメモリ利用アーキテクチャを採用し、大量なデータを高速に処理する事が可能です。

  • 多システム間のデータ連携

   多くの接続コネクタを整備し、多種多様なデータソースとの連携が可能な為、多システム間でデータを統合する事が可能です。

  • 新しいシステムへのデータ統合・移行

多くの企業では膨大に蓄積されたデータがサイロ化してしまい、有効活用できていない実態があります。
部門ごとにバラバラのシステムを導入・運用してきたことで発生している重複データや不整合データ、また様々なアプリケーションやデータベースに散在するデータをクレンジングし、統合してERPやCRMに連携する際にETLツールが活躍します。

 

補足)ETLとELT

従来からETLと並びELTという処理手法も存在しています。
ELTとはデータソースから抽出(E)し、そのままターゲットとなるデータベースやデータウェアハウスにデータをロード(L)した後に、そのデータベース上でSQLを利用した変換処理(T)を実施する手法で、順番からELTと呼ばれます。
近年ではデータベース性能が爆発的に向上した事、またHadoop等の並列処理機構も一般化してきた事から、それらの性能を有効活用する為に利用される手法です。

 Intelligent Data Management CloudではGUIで開発した変換処理をSQL文としてExtract元やLoad先のデータベース側で実行させるプッシュダウン最適化機能を備えており、ELTとして処理することも可能です。

 

ETLツールは万能なのか

ETLツールにはデータ連携やシステム移行がしやすくなる等のメリットがありますが、万能ではありません。

開発や運用が容易といっても、ある程度のITリテラシーは必要となりますし、ツールを使いこなすにはある程度の経験の蓄積が必要となります。
また、ETLツールの中には無償や安価で導入できるものも存在していますが、低コストのツールほどSQLやコーディングなどの専門知識がないと使いこなせないものが少なくありません。
しかも、サポートも得られないのが通常なので、導入にあたっては自社にIT部門や専門的なスタッフがいるかやスタッフのレベルなどに応じた選択が求められます。
ツールの利用方法や最適な開発手法などを習得するための研修やコンサルティングを受けられる体制、また保守やサポートを受けられる体制が必要かどうか、事前に検討が必要です。

 

インフォマティカでは   Intelligent Data Management Cloud のハンズオンセミナーや、数日間の研修プログラム(インフォマティカユニバーシティ)を定期的に開催しています。
また、プロフェッショナルサービスによるコンサルティングや、サポート窓口についても日本人による日本語での対応を行なっております。
ETLツールをご検討の際は是非インフォマティカまでお声かけください!