Informatica HParser è un ambiente di trasformazione per il parsing dei dati, ottimizzato per Hadoop. Questo software di analisi facile da utilizzare e privo di codice elabora qualsiasi formato di file nativamente su Hadoop, in modo scalabile ed efficiente. Offre analisi utilizzabili per elaborare una vasta gamma di fonti dati di complessità diverse, inclusi log, standard industriali, documenti e dati binari o gerarchici.

Accesso e parsing di dati complessi

Informatica HParser consente l’accesso ai dati e ai formati di file più complicati su Hadoop. Riduce del 70% i tempi e i costi di sviluppo dei data handler, semplificando la gestione di standard industriali, documenti binari e dati gerarchici. Il pattern di trasformazione sparso è il punto di forza principale di HParser:

  • HParser è in grado di comprende un formato nella sua interezza: binario, gerarchico, di testo e standard.
  • Il software HParser ignora senza problemi le strutture non interessanti sulla base dei rispettivi attributi fisici o logici.
  • HParser analizza in profondità le gerarchie dei dati anche solo con poche indicazioni.

Sviluppo flessibile per il parsing dei dati

HParser offre un ambiente di sviluppo flessibile e unico per il parsing e la trasformazione dei dati. L'organizzazione IT può visualizzare campioni di dati all'interno di HParser Studio e comprenderne la struttura e il layout tramite un set di tool integrati. È quindi possibile sperimentare estraendo gli elementi dei dati desiderati in un formato di destinazione di Hadoop. Infine, si può valutare la trasformazione con HParser a fronte di altri campioni dati simili. Tutte queste attività vengono svolte all'interno di un'unica istanza di HParser Studio e sono eseguibili rapidamente, nel giro di pochi minuti.

Caratteristiche principali di Informatica HParser

Supporto esteso di diversi standard industriali

L'elaborazione di formati di dati specifici del settore, come i seguenti, può costituire una sfida:

  • EDI per il settore manifatturiero
  • FIX, SWIFT, NACHA e SEPA per i pagamenti dei servizi finanziari
  • ACORD per le assicurazioni
  • ASN.1 per le telecomunicazioni
  • HL7, HIPAA per i servizi sanitari

Tipicamente definiti da gruppi industriali o organizzazioni governative, questi formati sono in continua evoluzione. Ogni anno viene introdotta almeno una nuova versione della maggior parte degli standard: ciò richiede, pertanto, che iniziative di analytics dei Big Data estese su più anni siano in grado di supportare diverse versioni e variazioni. Grazie all'ampia serie di library, versioni e messaggi, Informatica HParser offre un supporto esteso ai diversi standard industriali, senza tralasciare gli aggiornamenti periodici dei nuovi standard e di quelli esistenti a partire dal loro rilascio. Questo permette al processo corrente di supportare nuovi formati non appena diventano disponibili.

9.6 Launch - bd_hparser_screenshot1_300w.png

Estrazione dai documenti binari in Hadoop

Le aziende memorizzano grandi quantità di dati in documenti, come ad esempio file e contratti legali in Microsoft Word e PDF, per non parlare di relazioni e previsioni finanziarie nel formato Microsoft Excel. Informatica HParser offre il supporto immediato a questi documenti binari, per elaborare ed estrarre i dati rilevanti da tali fonti in Hadoop.


Elaborazione dei dati da strutture estremamente gerarchiche

Formati come XML e JSON accrescono la complessità dei dati gerarchici. La capacità di elaborare efficacemente i dati da una gerarchia estesa e supportare schemi e strutture avanzate è necessaria per elaborare correttamente i dati complessi in questi formati. Informatica HParser supporta nativamente XML e JSON, oltre a prevedere un approccio ottimizzato per l'estrazione dei dati da strutture gerarchiche.

9.6 Launch - bd_hparser_screenshot2_300w.png

Engine di trasformazione basato su specifiche per la definizione dei log

Informatica HParser utilizza un motore di trasformazione brevettato per definire specifiche di log, inclusi log gerarchici, delimitati e posizionali. Queste specifiche possono essere sfruttate anche per il parsing e l'estrazione dei dati da una vasta gamma di log: log Web, log CDR (Call Detail Record), log mainframe e log proprietari.

Possibilità di scalare

Il runtime di HParser è progettato per supportare Hadoop ininterrottamente su ogni scala, anche con algoritmi sviluppati su singole macchine, testati con pochi nodi e poi eseguiti su enormi cluster di computer. Indipendentemente dal formato o dalla dimensione del file di dati, HParser è in grado di elaborarlo e di scalare con la topologia del cluster Hadoop disponibile.

Vantaggi principali di Informatica HParser

Sviluppo ottimizato.La funzionalità di trasformazione di HParser, basata su esempi, aumenta in modo significativo la produttività. Gli utenti visualizzano un campione di dati nel formato e nel testo originale, permettendo lo sviluppo continuo di parser e data handler, oltre a fornire un feedback immediato senza dover compilare e implementare.

Maggiore produttività e implementazione flessibile. Informatica HParser velocizza fino a cinque volte lo sviluppo su Hadoop, fornendo analisi predefinite per molti degli standard industriali. L’engine di HParser è accessibile con una semplice chiamata, e consente il parsing di qualsiasi formato di dati all'interno di Hadoop.

Estrazione rapida dei dati.Scenari di analytics per i Big Data sofisticati dipendono dalla capacità di elaborare i dati provenienti da diverse fonti. Informatica HParser offre un ambiente di sviluppo visivo per il parsing di questi formati strutturati e semistrutturati e la loro rapida trasformazione in un formato utilizzabile, standard e flat. Con HParser, gli sviluppatori Hadoop possono utilizzare un singolo engine di trasformazione invece di svariati data handler codificati, al fine di sviluppare un unico programma indipendente dalla variazione dei dati.