Informatica HParser es un entorno de transformación de análisis de datos optimizado para Hadoop. Este sencillo software de análisis sin codificación procesa cualquier formato de archivo de forma nativa en Hadoop a escala y con eficiencia. Proporciona analizadores listos para usar para identificar la variedad y la complejidad de fuentes de datos como registros, estándares del sector, documentos y datos jerárquicos y binarios.

Acceso a datos complejos y análisis

Informatica HParser facilita el acceso a los formatos de datos y archivos más complicados en Hadoop. Reduce en un 70% el tiempo y el coste del desarrollo de gestores de datos al tiempo que agiliza la gestión de estándares del sector, documentos binarios y datos jerárquicos. El principal punto fuerte de HParser es el patrón de transformación disperso:

  • HParser comprende el formato en su totalidad: datos binarios, jerarquía, texto y estándares.
  • El software HParser omite con facilidad las estructuras que no tienen interés basándose en sus atributos físicos o lógicos.
  • HParser alcanza mayor profundidad en las jerarquías de datos con una sola instrucción.

Desarrollo ágil para el análisis de datos

HParser ofrece un entorno exclusivo de desarrollo ágil para el análisis y la transformación de los datos. La organización de IT puede consultar las muestras de datos en HParser Studio y comprender tanto su estructura como su disposición por medio de un conjunto de herramientas integradas. Así, es posible experimentar después con los elementos de datos que se extraigan en un formato de Hadoop de destino. Por último, se puede comparar la transformación realizada con HParser con otras muestras de datos similares. Todas estas acciones tienen lugar en un mismo lugar, HParser Studio, y apenas tardan unos minutos.

Características principales de Informatica HParser

Amplia compatibilidad con varios estándares del sector

Puede ser un reto procesar formatos de datos específicos del sector como los siguientes:

  • EDI para fabricación
  • FIX, SWIFT, NACHA o SEPA para pagos de servicios financieros
  • ACORD para seguros
  • ASN.1 para telecomunicaciones
  • HL7 o HIPAA para sistemas sanitarios

Estos formatos, que suelen haber definido grupos sectoriales u organismos públicos, están en continua evolución. Para la mayoría de los estándares, se publica al menos una versión nueva al año, por lo que cualquier iniciativa de análisis de Big Data que dure varios años debe ser compatible con distintas versiones y variaciones. Gracias a su extenso conjunto de bibliotecas, versiones y mensajes, Informatica HParser ofrece una amplia compatibilidad con distintos estándares del sector e incluye actualizaciones periódicas de estándares nuevos o existentes en cuanto se publican. De este modo, el procedimiento en curso admite los formatos nuevos en cuanto se ponen a disposición del público.

9.6 Launch - bd_hparser_screenshot1_300w.png

Extracción de datos de documentos binarios en Hadoop

La organización almacena ingentes cantidades de datos en documentos como, por ejemplo, archivos de carácter jurídico o contratos en Microsoft Word y PDF o bien informes financieros o previsiones en Microsoft Excel. Informatica HParser ofrece compatibilidad de serie con estos documentos binarios para permitir su procesamiento y la extracción de datos pertinentes en Hadoop.


Procesamiento de datos de estructuras jerárquicas profundas

Algunos formatos como XML y JSON aumentan la complejidad de los datos jerárquicos. Para procesar correctamente los datos complejos con estos formatos, es imprescindible poseer la capacidad para procesar con eficacia los datos procedentes de jerarquías profundas así como ofrecer compatibilidad con estructuras y esquemas avanzados. Informatica HParser ofrece compatibilidad nativa con XML y JSON además de un enfoque optimizado para la extracción de datos de estructuras jerárquicas.

9.6 Launch - bd_hparser_screenshot2_300w.png

Motor de transformación basada en especificaciones para la definición de registros

Informatica HParser emplea un motor de transformación patentado para definir las especificaciones de los registros, incluidos los registros de datos jerárquicos, delimitados y posicionales. Dichas especificaciones también se pueden aprovechar para analizar y extraer datos de diversos tipos de registros (web, de llamadas, de mainframe o de propiedad).

Ampliación flexible

El tiempo de ejecución de HParser está diseñado para admitir Hadoop sin interrupciones y a cualquier escala, incluso con algoritmos desarrollados en máquinas individuales y probados con unos cuantos nodos y ejecutados, a continuación, en clústeres de cuantiosos equipos. Sea cual sea el formato o el tamaño de los archivos de datos, HParser puede procesarlos y adaptarse a la topología del clúster de Hadoop disponible.

Beneficios principales de Informatica HParser

Agilice el desarrollo. La funcionalidad de transformación basada en ejemplos de HParser incrementa de forma considerable la productividad. Los usuarios ven la muestra de datos en el formato original y el formato de texto, lo cual facilita el desarrollo continuo del analizador o el gestor de datos y proporciona información al instante sin necesidad de compilación ni implantación.

Aumente la productividad y la flexibilidad de la implantación. Informatica HParser hasta quintuplica la velocidad de desarrollo en Hadoop gracias a los analizadores preintegrados compatibles con numerosos estándares del sector. El desarrollador de Hadoop puede acceder al motor de HParser con una simple llamada, lo que permite el análisis de cualquier formato de datos en Hadoop.

Abstraiga datos con rapidez. Las oportunidades con análisis avanzados de Big Data dependen de la capacidad para procesar datos provenientes de varias fuentes. Informatica HParser ofrece un entorno de desarrollo visual con el que analizar rápidamente estos formatos estructurados y semiestructurados y transformarlos en un formato tipo, plano y utilizable. Gracias a HParser, los desarrolladores de Hadoop pueden usar un único motor de transformación en lugar de varios gestores de datos con codificación a la hora de desarrollar un solo programa que no dependa de la variación de los datos.