Amazon Elastic MapReduce(EMR)는 하둡을 기반으로 하며, 매우 분산된 방식으로 파일을 저장하고 데이터를 처리하기 위한 입증된 기술을 제공합니다. 여러 데이터 소스로부터 서로 다른 몇 가지 유형의 데이터를 처리하는 경우 데이터를 분석하기 위한 하둡 기반 데이터 호수가 매우 유용합니다. 여러 데이터 소스의 데이터를 Amazon EMR로 로드하는 것이 데이터 호수를 만드는 첫 단계입니다. 다음 단계는 이 데이터를 분석하는 것입니다. 대부분의 하둡 클러스터가 몇 테라바이트의 데이터로 구성된 것을 고려하면, Amazon Redshift의 압축 기능이 이러한 클러스터에 포함된 엄청난 양의 데이터를 처리하는 데 도움이 될 수 있습니다. Informatica Intelligent Cloud Services의 푸시다운 최적화 기술은 이러한 활용 사례에 모두 적합합니다.
시작하기