Amazon Elastic MapReduce (EMR) se basa en Hadoop y ofrece una tecnología probada para almacenar archivos y procesar datos de manera muy distribuida. Al enfrentarse a diferentes tipos de datos de numerosas fuentes de datos, tiene mucho sentido un data lake basado en Hadoop para analizar los datos. La carga de datos de diversas fuentes de datos en Amazon EMR es el primer paso para constituir un data lake. El siguiente paso es analizar estos datos. Si tenemos en cuenta que la mayoría de clústeres de Hadoop constan de varios terabytes de datos, las funcionalidades de compresión de Amazon Redshift pueden ayudar a dar sentido al enorme volumen de datos incluidos en estos clústeres. La tecnología de optimización de pushdown de Informatica Intelligent Cloud Services es idónea para estos casos de uso.
Póngase en marcha