Informatica HParser est un environnement de transformation et d'analyse des données optimisé pour Hadoop. Ce logiciel d'analyse sans code, facile à utiliser, traite n'importe quel format de fichier en mode natif sur Hadoop avec adaptabilité et efficacité. Il fournit des analyseurs prêts à l'emploi capables de surmonter les difficultés liées à la variété et à la complexité des sources de données, qu'il s'agisse de journaux, de données normées du secteur, de documents ou de données binaires ou hiérarchiques.

Accès et analyse des données complexes

Informatica HParser permet d'accéder aux données et aux formats de fichier les plus complexes sur Hadoop. Il réduit le temps et le coût de développement des gestionnaires de données de 70 % tout en rationalisant la gestion des différentes normes par secteurs, les documents graphiques et les données hiérarchiques. HParser tire sa puissance d'un modèle de transformation exceptionnel :

  • HParser comprend un format dans sa globalité — données binaires, hiérarchiques, texte et normes.
  • Le logiciel HParser ignore les structures sans intérêt en se fondant sur leur disposition physique ou leurs attributs logiques.
  • Il est capable d'atteindre les niveaux les plus profonds des hiérarchies de données avec une seule instruction.

Développement flexible pour l'analyse des données

HParser fournit un environnement de développement unique et flexible pour l'analyse et la transformation des données. Votre service informatique peut afficher des échantillons de données dans HParser Studio et comprendre leur structure et leur disposition à l'aide d'un ensemble d'outils intégrés. Vous pouvez ensuite vous lancer dans des tests en extrayant les éléments de données souhaités dans un format Hadoop cible. Vous pouvez également tester votre transformation HParser par rapport à d'autres échantillons de données similaires. Toutes ces activités ne prennent que quelques minutes dans une seule session HParser Studio.

Principales fonctionnalités d'Informatica HParser

Prise en charge de plusieurs normes industrielles

Traiter des formats de données spécifiques à certains secteurs d'activité, comme ceux répertoriés ci-dessous, peut se révéler compliqué :

  • EDI pour le secteur de la fabrication
  • FIX, SWIFT, NACHA et SEPA pour les services financiers de paiement
  • ACORD pour l'assurance
  • ASN.1 pour les télécommunications
  • HL7, HIPAA pour la santé

Généralement définis par les groupes industriels ou les organismes publics, ces formats sont en perpétuelle évolution. La plupart des normes font l'objet d'au moins une nouvelle version par an, ce qui implique que toute initiative d'analyse des Big Data sur plusieurs années prenne en charge plusieurs versions et variations. Avec son vaste ensemble de bibliothèques, versions et messages, Informatica HParser prend en charge de nombreuses normes de différents secteurs, y compris les mises à jour régulières des nouvelles normes et des normes existantes, juste après leur publication. Avec cette approche, le processus actuel est en mesure de prendre en charge les nouveaux formats dès qu'ils sont disponibles.

9.6 Launch - bd_hparser_screenshot1_300w.png

Extraction à partir de documents binaires dans Hadoop

Votre organisation stocke des quantités considérables de données dans des documents : dossiers juridiques et contrats sous forme de documents Microsoft Word et PDF, par exemple, et rapports financiers et prévisions dans Microsoft Excel. Informatica HParser offre une prise en charge immédiate de ces documents binaires pour vous permettre d'en traiter les données pertinentes et de les extraire pour les importer dans Hadoop.


Traitement des données à partir de structures hiérarchiques profondes

Certains formats tels que XML et JSON augmentent la complexité des données hiérarchisées. Il est indispensable de pouvoir traiter efficacement les données de hiérarchie profonde et de prendre en charge les schémas et les structures avancés afin de gérer de manière optimale les données complexes dans ces formats. Informatica HParser offre une prise en charge native des formats XML et JSON, ainsi qu'une approche optimisée pour l'extraction de données de structures hiérarchiques.

9.6 Launch - bd_hparser_screenshot2_300w.png

Moteur de transformation reposant sur des spécifications destiné à la définition des journaux

Informatica HParser utilise un moteur de transformation breveté pour définir les spécifications des journaux, y compris les journaux hiérarchiques, délimités et positionnels. Ces spécifications peuvent également être exploitées pour analyser et extraire les données de différents types de journaux : journaux Web, journaux d'enregistrements détaillés des appels (CDR), mainframe et propriétaires.

Adaptabilité et flexibilité

L'exécution de HParser est conçue pour prendre en charge Hadoop en toute transparence et à toute échelle — y compris avec des algorithmes développés sur des machines individuelles, testés avec quelques nœuds seulement, puis exécutés sur des clusters d'ordinateurs massifs. Quels que soient le format et la taille du fichier de données, HParser est en mesure de le traiter et de l'adapter à la topologie du cluster Hadoop disponible.

Principaux avantages d'Informatica HParser

Rationalisez le développement. La fonction de transformation de HParser, basée sur des exemples, augmente fortement la productivité. Les utilisateurs affichent un échantillon de données dans son format d'origine et au format texte, ce qui favorise le développement continu de l'analyseur ou du gestionnaire de données, et fournit un retour immédiat, sans qu'aucune compilation ni aucun déploiement ne soit nécessaire.

Augmentez la productivité et la flexibilité du déploiement. Informatica HParser accélère le développement sur Hadoop (jusqu'à cinq fois) en fournissant des analyseurs prédéfinis pour de nombreuses normes de différents secteurs. Le moteur HParser est accessible aux développeurs Hadoop par simple appel et active l'analyse de n'importe quel format de données dans Hadoop.

Extrayez rapidement vos données. Les scénarios d'analyse avancée des Big Data dépendent de la capacité à traiter les données issues de plusieurs sources. Informatica HParser fournit un environnement de développement visuel pour analyser et convertir rapidement ces formats structurés et semi-structurés en un format pivot utilisable et aplati. Avec HParser, les développeurs Hadoop peuvent utiliser un seul moteur de transformation, au lieu de plusieurs gestionnaires de données codées, pour développer un programme unique qui s'adapte facilement aux variations de données.