Amazon Elastic MapReduce (EMR) basiert auf Hadoop und bietet eine bewährte Technologie, mit der das Speichern von Dateien und das Verarbeiten von Daten in hochgradig verteilter Form erfolgen. Wenn es mehrere verschiedene Typen von Daten aus einer Vielzahl von Datenquellen zu analysieren gilt, ist ein Data Lake auf der Basis von Hadoop eine sehr sinnvolle Lösung. Der erste Schritt zur Einrichtung eines Data Lake besteht darin, die Daten aus mehreren Datenquellen in Amazon EMR zu laden. Im nächsten Schritt werden die betreffenden Daten analysiert. Angesichts der Tatsache, dass die meisten Hadoop-Cluster aus mehreren Terabyte an Daten bestehen, können die Komprimierungsmöglichkeiten von Amazon Redshift dazu beitragen, die enormen Datenmengen aus diesen Clustern sinnvoll zu interpretieren. Die Pushdown-Optimierungstechnologie von Informatica Intelligent Cloud Services ist für diese beiden Anwendungsfälle bestens geeignet.
Jetzt starten