企業における Hadoopの活用
Hadoop 専門家の第一人者である Tom White は、著書 Hadoop: The Definitive Guide において Big Data ] が登場したことは素晴らしい反面、Big Data の保管と分析に苦労している実情がある。」と述べています。従来は、パフォーマンスやコスト、技術上の理由から実現できなかったような新しいデータ分析/マイニング手法が、Hadoop によって企業で実用化されています。Hadoop は、異種データソースに格納されていることが多い半構造化データ、非構造化データ、ローデータなどを、大量に処理、保管、分析するためのオプションとして人気が高まっています。
しかし、Hadoop を実際に活用するにはどうしたらよいでしょうか?
Hadoop の第一の特長は、コスト効率で定評ある拡張性を備えており、コモディティハードウェアを活用できることです。 あらゆるタイプのデータ(構造化、半構造化、非構造化)の処理をサポートしており、また Hadoop のオープンな拡張性のおかげで、開発者はさまざまなアプリケーションの特殊機能に、 Hadoop を活用して補完することができます。
多くの組織では、Big Data のデータ量、スピード、多様性に対処するために環境を拡張するオプションとして Hadoop を検討し始めています。 このため Hadoop を導入する事例が増えており、大規模データユーザーを対象にした最近の調査では、回答者の半数以上が Hadoop の導入を検討していると答えています。
データ統合と Hadoop
Hadoop は既存のシステムの代わりに利用できるものではありません。 Hadoop は、大量データの処理機能によって既存のシステムを補強し、既存のシステムが本来の処理に集中できるようにするものです。 複数システムのデータと Hadoop を組み合わせて利用し、従来であれば不可能だったビジネスを把握できる能力を飛躍的に拡大する上で、データ統合は重要な役割を果たします。 Informatica プラットフォームを導入すれば、ハイブリッド環境で Hadoop を利用し、それぞれのテクノロジー独自の強みを活用し、環境全体のパフォーマンスを最大限に引き出すことができます。
Hadoop 向けデータ統合プラットフォームの使用
他の最先端技術と同様に、Hadoop にも課題はあります。 しかし、包括的でオープンな統一データプラットフォームを利用すれば、以下のように Hadoop の課題に対処し、Hadoop を最大限に活用することができます。
-
ユニバーサルデータアクセス: Hadoop を使用してさまざまなデータソースを保存、処理しますが、すべての関連データを組み合わせて処理する際に問題に直面することがよくあります。 データ統合プラットフォームがあれば、Hadoop 内外で容易に信頼性のあるデータの事前処理と事後処理を実現することができます。
-
データ解析とデータ交換: Hadoop は、さまざまなタイプのデータを保存する点では優れていますが、すべての関連データタイプのデータの内容を理解して判断するという点で、大きな課題が残っています。 データ統合プラットフォームがあれば、生産性が向上し、非構造化データソース(画像、テキスト、バイナリ、業界標準など)からより大きな価値を引き出すことができます。
-
メタデータの管理 : Hadoop にはメタデータ管理機能とデータ監査機能がありません。この 2 つの機能がないと、プロジェクトの成果は疑わしくなり、一貫性の欠落と可視性の低さに影響される可能性があります。 データ統合プラットフォームがあれば、データリネージおよび監査機能によって完全なメタデータ管理を実現し、標準化を促進することができます。
-
データ品質とデータガバナンス: Hadoop の一部のデータは、高品質なデータを必要としない保存処理や試験的な処理のために保管されますが、多くの組織が、エンドユーザーのレポート作成や分析用に Hadoop を利用するでしょう。そうなれば、基盤となるデータの信頼性が問題になります。 データ統合プラットフォームがあれば、データのプロファイリング、クレンジング、管理機能が備わっており、データの内容をより適切に理解し、信頼性を高め、データの増加を効果的かつ安全に管理することができます。
-
混合ワークロード管理: Hadoop では、ユーザーサービスレベルアグリーメント(SLA)に基づく、混合ワークロードは管理できません。 データ統合プラットフォームがあれば、Hadoop のデータセットとその他のトランザクションソースを統合することができます。これにより、状況の進展に伴いリアルタイムのビジネスインテリジェンスとビジネス分析を得ることができます。
-
リソースの最適化と再利用: Hadoop を利用するためには、そのためのリソースを探して採用し、データ統合タスクを再利用および標準化するためのフレームワークを作成しなければなりません。 データ統合プラットフォームがあれば、エコシステムでサポートされているリソースが利用できるようになり、プロジェクト間での IT リソースの再利用が促進され、人事採用とトレーニングに関する投資収益率が向上します。
-
アーキテクチャの他の部分との相互運用性: Hadoop を合理化し、拡張環境の一部として Hadoop を組み込むことはかなり困難です。 データ統合プラットフォームのユニバーサルデータアクセス機能と変換機能があれば、エンドツーエンド分析やデータ処理サイクルの一部として Hadoop を組み込むことができます。これにより、Hadoop と既存の IT 投資の間のギャップを埋めることができます。
さまざまな Hadoop プロジェクト(メタデータ管理、混合ワークロード、リソース最適化、相互運用性を必要とするプロジェクトを含む)で、プラットフォームのデータ統合アプローチを利用することができます。 プラットフォームのデータ統合アプローチでは、Hadoop のデータ処理能力をフルに活用し、オープンでニュートラルなプラットフォームの定評ある機能を利用してデータを統合します。
Informatica for Hadoop
Informatica は、お客様が Hadoop への投資効果を引き出し、既存のデータ統合と ETL スキルセットを活用できるように支援することができます。Informatica プラットフォーム を導入すれば、次のようなメリットを得ることができます。
- Hadoop 内外での容易かつ信頼性のあるデータの事前処理と事後処理を実現することができます。
- 生産性が向上し、非構造化データソース(画像、テキスト、バイナリ、業界標準など)からより大きな価値を引き出すことができます。
- メタデータ主導型の監査が促進されます。
- Hadoop により、サイロ化されたアクティビティのガバナンス、信頼性、セキュリティが強化されます。
- 高いデータ処理能力に柔軟性をプラスすることができます。
- 高いスループットで混合ワークロードと並行処理を管理します。