Amazon Elastic MapReduce (EMR) è basato su Hadoop e offre una tecnologia comprovata per la memorizzazione di file e l'elaborazione di dati in modo distribuito. A fronte di molti tipi di dati provenienti da diverse fonti, risulta molto pratico utilizzare un data lake basato su Hadoop per l'analisi dei dati. Il caricamento di dati da più fonti dati in Amazon EMR è il primo passo per la formazione di un data lake. Il passaggio successivo è l'analisi di questi dati. Considerando che la maggior parte dei cluster è costituita da più terabyte di dati, le funzionalità di compressione di Amazon Redshift consentono di orientarsi nell'enorme volume di dati contenuti in questi cluster. La tecnologia di ottimizzazione pushdown di Informatica Intelligent Cloud Services è perfetta per questi casi d'uso.
Leggi l'articolo