Informatica HParserはHadoop向けに最適化されたデータ解析変換環境です。 使いやすく、コーディング不要の解析ソフトウェアで、あらゆるファイル形式や規模に対応できる効率性を備え、Hadoop上でネイティブに処理します。 パーサー機能は、導入後すぐ使い始めることが可能で、ログ、業界標準、文書、バイナリや階層データ等、多様で複雑なデータソースを処理します。

複雑なデータにアクセスして解析

Informatica HParserは、Hadoopの最も難解なデータやファイル形式へのアクセスを可能にします。 パーサー機能は、導入後すぐ使い始めることが可能で、ログ、業界標準、文書、バイナリや階層データ等、多様で複雑なデータソースを処理します。 変換パターンが少ないことがHParserのコアの長所です:

  • HParserは、バイナリ、階層、テキスト、標準等の形式を、全体として認識します。
  • HParserソフトウェアは、物理属性や論理属性に基づく構造を簡単にスキップします。
  • HParserは、1つの命令だけで、データ階層の深い部分まで解析します。

データ解析の俊敏な開発

HParserはデータ解析と変換に必要な独自の俊敏な開発環境を提供します。 HParser Studio内のデータサンプルを見れば、統合ツールセットを介して、その構造とレイアウトを理解することができます。 その後、解析したいデータ要素をターゲットのHadoop形式に抽出して、テストしてみます。 それが終われば、他の似たようなデータサンプルを使ってHparser変換をテストすることができます。 これらの作業は、全てひとつのHParser Studio内で実行され、完了までに数分しかかかりません。

Informatica HParserの主な機能

複数の業界標準を幅広くサポート

以下のような業界固有のデータ形式を処理するのは容易なことではありません:

  • 製造業向けのEDI
  • 金融サービス決済業務向けのFIX、SWIFT、NACHA、SEPA
  • 保険業界向けのACORD
  • 電気通信業向けのASN.1
  • 医療業界向けのHL7、HIPAA

これらの形式は、通常は業界団体や政府機関により定義され、継続的に改訂されています。 ほとんどの標準は少なくとも年に一回新しいバージョンが策定され、複数のバージョンと改訂に対処するために、複数年にわたるビッグデータ分析イニシアチブが必要となります。 Informatica HParserは、幅広いライブラリ、バージョン、メッセージセットを備えており、リリースしたばかりの新規・既存の標準の定期的なアップデート等、複数の業界標準を幅広くサポートします。 これによって、現在のプロセスを使って、新しく定義された形式に対処できるようになります。

9.6 リリース - bd_hparser_screenshot1_300w.png

バイナリードキュメントからHadoopへの抽出

Microsoft Wordで作成された法律関連のファイルや契約書、Microsoft Excelで作成された金融レポートやフォーキャスト等、膨大なデータがドキュメント形式で保存されています。 Informatica HParserは、導入後すぐに使い始められる機能で、これらのバイナリードキュメントを処理し、業務に関連性のあるデータをドキュメントからHadoopに抽出します。


複雑な階層構造からのデータ処理

XMLやJSON等のファイル形式は階層データをより複雑なものにしています。 これらの複雑なデータ形式を正しく処理するには、複雑な階層構造のデータを効果的に処理し、高度なスキーマと構造をサポートできる能力が必要です。 Informatica HParserは、XMLとJSONをネイティブでサポートし、階層構造からデータを抽出するための最適化されたアプローチを提供します。

9.6 リリース - bd_hparser_screenshot2_300w.png

仕様主導の変換エンジンでログ定義

Informatica HParserは、特許登録された変換エンジンを使用して、階層、カンマ区切り、位置等の様々なログ仕様を定義します。 また、これらの仕様はWebログ、通話明細(CDR)ログ、メインフレームログ、独自に作成したログ等様々なログのデータを解析・抽出するためにも利用できます。

伸縮自在の拡張性

HParserランタイムは、あらゆる規模のHadoopをシームレスにサポートできるように設計されており、個別のマシンで開発されたアルゴリズムでも、いくつかのノードでテストを行い、大規模なコンピュータークラスタで実行することができます。 どのような形式やサイズのデータファイルであっても、HParserはそれを処理し、利用可能なHadoopクラスタのトポロジーに合わせて拡張することができます。

Informatica HParserの主なメリット

開発を合理化します。 Hparserの実例ベースの変換機能が生産性を飛躍的に高めます。 ユーザーは、元のテキスト形式でデータサンプルを見ることが可能であり、パーサーやデータハンドラーを継続的に開発しても、コンパイル・デプロイが不要で、瞬時にフィードバックすることができます。

実装の生産性と柔軟性を改善 Informatica HParserは、多くの業界標準に合わせて予め組み込まれたパーサーを提供することで、Hadoopの開発生産性を最大5倍に高めます。Hadoop開発者は単純にcallするだけでHParserエンジンにアクセスし、Hadoop内部のあらゆるデータ形式を解析することが可能です。

データを短時間で抽象化します。 高度なビッグデータ分析シナリオは、複数ソースからデータを処理する能力に依存します。 Informatica HParserは、ビジュアルな開発環境を提供し、構造化・半構造化形式を解析し、実用的で標準化されたフラット形式に短時間で変換します。 Hparserがあれば、Hadoop開発者は単一の変換エンジンを使用するだけで、複数コードのデータハンドラーを使用することなく、データの種類にとらわれない単一プログラムを開発することができます。