O Informatica HParser é um ambiente de transformação de análise de dados otimizado para Hadoop. Este software de análise sem código e fácil de usar processa qualquer formato de arquivo nativamente no Hadoop com escala e eficiência. Ele fornece analisadores prontos para abordar a variedade e a complexidade das fontes de dados, incluindo logs, padrões do setor, documentos e dados binários ou hierárquicos.

Acesse e analise dados complexos

O Informatica HParser permite o acesso aos formatos de dados e de arquivos mais difíceis no Hadoop. Ele reduz o tempo e o custo de desenvolvimento de manipuladores de dados em 70%, enquanto simplifica o gerenciamento de padrões do setor, os documentos binários e os dados hierárquicos. Um padrão de transformação escasso é o ponto forte do HParser:

  • O HParser compreende um formato em sua totalidade – binário, hierarquia, texto e padrões.
  • O software HParser ignora facilmente estruturas não interessantes com base em seus atributos físicos ou lógicos.
  • OHParser atinge profundamente as hierarquias de dados com uma única instrução.

Desenvolvimento ágil para análise de dados

O HParser oferece um ambiente de desenvolvimento ágil exclusivo para a análise e a transformação de dados. Sua organização de TI pode exibir amostras de dados no HParser Studio e compreender sua estrutura e layout por meio de um conjunto de ferramentas integradas. Em seguida, você pode experimentar a extração dos elementos de dados desejados em um formato Hadoop de destino. Finalmente, você pode testar a sua transformação do HParser em relação a outras amostras de dados semelhantes. Todas essas atividades ocorrem em um único HParser Studio e podem ser rapidamente realizadas em poucos minutos.

Principais recursos do Informatica HParser

Amplo suporte a vários padrões do setor

Pode ser um desafio processar formatos de dados específicos do setor, como:

  • EDI para manufatura
  • FIX, SWIFT, NACHA e SEPA para pagamentos de serviços financeiros
  • ACORD para seguros
  • ASN.1 para telecomunicações
  • HL7, HIPAA para o setor de saúde

Normalmente definidos por grupos do setor ou organizações governamentais, estes formatos estão em constante evolução. A maioria dos padrões tem pelo menos uma nova versão por ano, exigindo que qualquer iniciativa de análise de Big Data de vários anos dê suporte a várias versões e variações. Com seu amplo conjunto de bibliotecas, versões e mensagens, o Informatica HParser dá suporte amplo a vários padrões do setor, incluindo atualizações regulares de padrões novos e existentes logo após o seu lançamento. Isso permite que o processo atual dê suporte a novos formatos assim que eles se tornam disponíveis.

9.6 Launch - bd_hparser_screenshot1_300w.png

Extração de documentos binários para o Hadoop

Sua organização armazena enormes quantidades de dados em documentos, como arquivos legais e contratos no Microsoft Word e no PDF, e relatórios financeiros e previsões no Microsoft Excel. O Informatica HParser dá suporte imediato a estes documentos binários para que você possa processar e extrair dados relevantes deles para o Hadoop.


Processamento de dados de estruturas hierárquicas profundas

Formatos como XML e JSON aumentam a complexidade de dados hierárquicos. A capacidade de processar os dados de forma eficiente a partir de uma hierarquia profunda e dar suporte ao esquema e às estruturas avançadas é necessária para processar com sucesso os dados complexos nesses formatos. O Informatica HParser possui suporte nativo para XML e JSON, bem como uma abordagem otimizada para extrair dados de estruturas hierárquicas.

9.6 Launch - bd_hparser_screenshot2_300w.png

Mecanismo de transformação orientado por especificações para a definição de logs

O Informatica HParser usa um mecanismo de transformação patenteado para definir as especificações de logs, incluindo logs hierárquicos, delimitados e posicionais. Essas especificações também podem ser aproveitadas para analisar e extrair dados de uma variedade de logs – logs da Web, logs de registros detalhados de chamada (CDR), logs de mainframe e logs de propriedade.

Dimensionamento elástico

O tempo de execução do HParser foi projetado para dar suporte ao Hadoop perfeitamente em qualquer dimensão – mesmo com algoritmos desenvolvidos em máquinas individuais, testados com alguns nós e executados em clusters de computadores enormes. Independentemente do formato ou tamanho do arquivo de dados, o HParser pode processá-lo e dimensionar com a topologia do cluster de Hadoop disponível.

Principais benefícios do Informatica HParser

Simplificar o desenvolvimento. O recurso de transformação baseado em exemplo do Hparser aumenta drasticamente a produtividade. Os usuários exibem uma amostra dos dados em formatos originais e de texto, o que permite o desenvolvimento contínuo do analisador ou manipulador de dados e fornece feedback instantâneo, sem a necessidade de compilar e implantar.

Aumentar a produtividade e a implantação flexível. O Informatica HParser acelera o desenvolvimento no Hadoop em até cinco vezes, fornecendo analisadores pré-criados por muitos padrões do setor. O mecanismo do HParser é acessível para o desenvolvedor do Hadoop em uma simples chamada, permitindo a análise de qualquer formato de dados dentro do Hadoop.

Abstrair rapidamente os dados. Os cenários avançados de análise de Big Data dependem da capacidade de processar dados de diversas fontes. O Informatica HParser fornece um ambiente de desenvolvimento visual para analisar e transformar esses formatos estruturados e semiestruturados rapidamente em um formato utilizável, canônico e nivelado. Com o HParser, os desenvolvedores do Hadoop podem usar um único mecanismo de transformação, em vez de vários manipuladores de dados codificados, para desenvolver um único programa agnóstico para a variação de dados.