Informatica HParser ist eine für Hadoop optimierte Datenumwandlungsumgebung. Diese einfach zu bedienende Analysesoftware muss nicht programmiert werden und ermöglicht die Verarbeitung beliebiger Dateiformate in Hadoop mit Skalierung und Effizienz. Sie liefert sofort nutzbare Analysefunktionen, mit denen unterschiedliche und komplexe Datenquellen verarbeitet werden können, darunter Protokolle, Industriestandards, Dokumente sowie binäre und hierarchische Daten.

Zugriff und Analyse komplexer Daten

Informatica HParser ermöglicht den Zugriff auf schwierigste Daten- und Dateiformate in Hadoop. Es verringert Zeitaufwand und Kosten bei der Entwicklung von Data Handlers um 70 Prozent bei gleichzeitiger Optimierung in der Verwaltung von Branchenstandards, binären Dokumenten und hierarchische Daten. Die Stärke von HParser ist ein schmales Umwandlungsmuster:

  • HParser versteht ein Format in seiner Gesamtheit: binäre, hierarchische, Text- und Standarddaten.
  • HParser-Software überspringt einfach nicht interessante Strukturen auf der Grundlage ihrer physischen oder logischen Attribute.
  • HParser reicht mit einer einzigen Anweisung tief in die Hierarchien.

Agile Entwicklung für Datenanalyse

HParser bietet eine einzigartige agile Entwicklungsumgebung für die Datenanalyse und -umwandlung. Ihre IT-Abteilung kann Musterdaten in HParser Studio anzeigen und Struktur und Layout durch eine Reihe von integrierten Tools verstehen. Sie können mit der Extraktion gewünschter Datenelemente in ein Hadoop-Zielformat experimentieren. Schließlich können Sie Ihre HParser-Umwandlung gegen andere ähnliche Datenmuster testen. Alle diese Aktivitäten finden in einem HParser Studio statt und lassen sich innerhalb weniger Minuten durchführen.

Hauptfunktionen von Informatica HParser

Breite Unterstützung für zahlreiche Branchenstandards

Es kann eine Herausforderung sein, branchenspezifische Datenformate zu verarbeiten, wie:

  • EDI für die Fertigungsindustrie
  • FIX, SWIFT, NACHA und SEPA für Zahlungen in Finanzdienstleistungen
  • ACORD für Versicherungen
  • ASN.1 für Telekommunikation
  • HL7, HIPAA für das Gesundheitswesen

Normalerweise werden diese Formate durch die Branchengruppen oder Einrichtungen der öffentlichen Verwaltung definiert und stetig weiterentwickelt. Für die meisten Standards gibt es mindestens eine neue Version pro Jahr, die fordert eine mehrjährige Initiative für Big Data-Analyse zur Unterstützung mehrerer Versionen und Variationen. Mit seinen umfangreichen Bibliotheken, Versionen und Nachrichten, bietet Informatica HParser breite Unterstützung für zahlreiche Branchenstandards, einschließlich regelmäßiger Aktualisierungen neuer und bestehender Standards kurz nach deren Freigabe. Dies ermöglicht dem aktuellen Prozess neue Formate zu unterstützen, sobald diese zur Verfügung stehen.

Markteinführung von 9.6 – bd_hparser_screenshot1_300w.png

Extraktion von binären Dokumenten in Hadoop

Ihr Unternehmen speichert große Mengen von Daten in Dokumenten, wie z. B. Dateien zu rechtlichen Angelegenheiten und Verträge in Microsoft Word und als PDF sowie Finanzberichte und Prognosen in Microsoft Excel. Informatica HParser bietet einsatzbereite Unterstützung für diese binären Dokumente, so dass Sie relevante Daten daraus in Hadoop verarbeiten und extrahieren können.


Datenverarbeitung aus tiefen hierarchischen Strukturen

Formate wie XML und JSON erhöhen die Komplexität von hierarchischen Daten. Die Fähigkeit zur effektiven Verarbeitung von Daten aus einer tiefen Hierarchie und Unterstützung erweiterter Schemata und Strukturen sind Voraussetzung für die erfolgreiche Verarbeitung der komplexen Daten in diesen Formaten. Informatica HParser bietet native Unterstützung für XML und JSON sowie eine optimierte Methode zur Extraktion von Daten aus hierarchischen Strukturen.

Markteinführung von 9.6 – bd_hparser_screenshot2_300w.png

Von Spezifikationen angetriebene Engine für die Datenumwandlung zur Definition von Protokollen

Informatica HParser verwendet eine patentierte Engine für die Datenumwandlung zur Definition von Protokollspezifikationen, inklusive hierarchischer, durch Trennzeichen getrennter Daten und Daten mit fester Breite. Diese Vorgaben können auch genutzt werden, um Daten aus einer Vielzahl von Protokollen zu analysieren und zu extrahieren, z. B. Web-Logs, CDR-Protokolle, Mainframe-Protokolle und proprietäre Protokolle.

Fließende Skalierbarkeit

HParser Runtime wurde entwickelt, um Hadoop nahtlos in jedem Umfang zu unterstützen – auch mit auf einzelnen Computern entwickelten Algorithmen, die mit ein paar Knoten getestet wurden und dann auf massiven Computer-Clustern ausgeführt werden. Unabhängig von Dateiformat und -größe kann HParser die Daten verarbeiten und mit der Topologie der zur Verfügung stehenden Hadoop-Cluster skalieren.

Hauptvorteile von Informatica HParser

Optimierung der Entwicklung Die beispielbasierten Umwandlungsfunktionen von HParser erhöhen die Produktivität drastisch. Benutzer sehen eine Datenstichprobe im Original und in Textformaten, die eine ständige Weiterentwicklung der Parser oder Daten-Handler ermöglichen und eine sofortige Rückmeldung bieten – ohne Notwendigkeit zu kompilieren und bereitzustellen.

Steigern Sie Produktivität und flexible Bereitstellung. Informatica HParser verkürzt die Entwicklung auf Hadoop um das Fünffache durch die vorgefertigten Parser für viele Branchenstandards. Die HParser-Engine ist für Hadoop-Entwickler über einfachen Aufruf verfügbar, so dass die Analyse von jedem Datenformat in Hadoop möglich ist.

Daten schnell abstrahieren Erweiterte Big Data-Analyseszenarien hängen von der Fähigkeit ab, die Daten aus mehreren Quellen zu verarbeiten. Informatica HParser bietet eine visuelle Entwicklungsumgebung für die schnelle Analyse und Umwandlung dieser strukturierten und halbstrukturierten Formate in nutzbarem, kanonischem und abgeflachtem Format. Mit HParser können Hadoop-Entwickler eine einzige Engine für die Datenumwandlung verwenden, statt mehrere codierte Daten-Handler, um ein einzelnes Programm vollkommen unabhängig von der Datenvariation zu entwickeln.