기업에서의 Hadoop
최고의 Hadoop 전문가로 손꼽히는 Tom White는 자신의 저서 Hadoop: The Definitive Guide에서 이렇게 말한 바 있습니다. "빅 데이터" 섹션 링크 삽입]의 등장은 반가운 뉴스입니다. 문제는 이 데이터를 저장하고 분석하기가 쉽지 않다는 것입니다." 많은 조직이 성능, 비용 및 기술적 이유로 종전까지 불가능했던 새로운 데이터 분석 및 마이닝 기법을 Hadoop을 이용해 찾아 내고 실제 업무에 사용하고 있습니다. 결과적으로 Hadoop은 분산된 데이터 소스로부터 수집된 방대한 볼륨의 반정형, 비정형 또는 원시 데이터를 처리, 저장 및 분석하기 위한 방법으로서 점점 더 인기를 얻고 있습니다.
하지만 정확히 언제 어떻게 Hadoop을 활용해야 하는 것일까요?
Hadoop의 기본적 강점은 상용 하드웨어를 사용할 수 있을 만큼 비용 효율적 확장성이 검증되었다는 것입니다. Hadoop은 정형, 비정형 또는 반정형 등 모든 데이터 유형의 처리를 지원합니다. 또한 Hadoop은 개방된 확장성을 바탕으로 개발자가 광범위한 애플리케이션의 지원을 위해 Hadoop에 특수 기능을 보완할 수 있도록 해 줍니다.
현재 많은 조직이 Big Data의 볼륨, 속도 및 다양성 문제를 해결하기 위한 확장식 환경으로 Hadoop의 가능성을 인식하기 시작하고 있습니다. 결과적으로 Hadoop의 도입은 향후 계속 확대될 것으로 보이며, 대규모 데이터 사용자에 대한 최근 설문 조사에서도 응답자의 절반 이상이 사내 환경에 Hadoop을 도입하는 방안을 고려하고 있다고 답한 바 있습니다.
데이터 통합 및 Hadoop
Hadoop은 기존의 시스템을 대체하지 않습니다. 대신 Hadoop은 대용량 데이터의 추가적 처리를 가능하게 함으로써 기존의 시스템이 각자의 특화된 기능을 최대한 발휘할 수 있도록 하는 방식으로 기존 시스템을 보완합니다. 데이터 통합 기능은 Hadoop을 여러 시스템에서 수집된 데이터와 통합하여 다른 방법으로는 불가능한 획기적인 비즈니스 정보력을 얻고자 하는 조직에서 핵심적 역할을 수행합니다. 인포매티카 플랫폼은 혼합형 환경에서 Hadoop을 활용할 수 있는 길을 열어 줌으로써 조직이 각 기술의 독보적 강점을 활용하고 전체 환경의 성능을 극대화할 수 있도록 해 줍니다.
Hadoop을 위한 데이터 통합 플랫폼 활용
새롭게 부상하는 다른 모든 기술과 마찬가지로 Hadoop에도 문제가 없는 것은 아닙니다. 포괄적이고 개방적이며 일체화된 데이터 통합 플랫폼은 다음과 같은 기능의 지원을 통해 조직이 이러한 과제를 해결하고 Hadoop을 활용할 수 있도록 해 줍니다.
- 범용 데이터 액세스 – 많은 조직이 광범하고 다양한 데이터 소스의 보관 및 처리를 위해 Hadoop을 사용하고 있으며, 모든 관련 데이터를 통합 및 처리하는 데 있어 어려움을 겪는 일이 많습니다. 데이터 통합 플랫폼은 조직이 Hadoop에 입출력되는 데이터의 전처리 및 후처리를 간편하고 신뢰할 수 있는 방식으로 처리할 수 있는 수단을 제공합니다.
- 데이터 구문 분석(Parsing) 및 교환 - Hadoop은 다양한 데이터를 저장하는 데 있어 탁월한 능력을 발휘하지만, 모든 유형의 관련 데이터에서 의미와 타당성을 도출해 내야 한다는 부분이 큰 문제입니다. 데이터 통합 플랫폼은 이미지, 텍스트, 바이너리, 산업 표준 등 비정형 데이터 소스로부터 더 큰 가치를 창출해 내는 작업에 있어 높은 생산성을 발휘합니다.
- 메타데이터 관리. Hadoop은 메타데이터 관리 및 데이터 감사 기능을 제공하지 않습니다. 그러나, 이 기능이 지원되지 않을 경우 프로젝트의 결과가 의심스러워지고 일관성과 가시성이 저하되는 문제가 발생할 수 있습니다. 데이터 통합 플랫폼은 데이터 계보(Lineage) 및 감사 기능을 통해 완전한 메타데이터 관리 기능을 제공하는 동시에 표준화를 지원합니다.
- 데이터 품질 및 데이터 거버넌스. Hadoop의 일부 데이터는 고수준의 데이터 품질을 요하지 않는 스토리지 또는 실험 작업용으로 보관됨에도 불구하고 많은 조직이 Hadoop을 최종 사용자 보고 및 분석용으로 사용하고 있으며, 이로 인해 기본 데이터의 신뢰성이 저하될 수 있습니다. 데이터 통합 플랫폼은 데이터의 의미를 보다 정확히 이해하고 신뢰성을 높이고 데이터의 확장을 효과적이고 안전하게 관리할 수 있도록 데이터 프로파일링, 정제 및 관리 기능을 제공합니다.
- 혼합형 작업 로드 관리. Hadoop은 사용자의 서비스 수준 계약(SLA)에 따라 혼합형 작업 로드를 관리할 수 없습니다. 데이터 통합 플랫폼은 Hadoop 및 기타 거래 소스로부터 수집된 데이터 집합을 통합할 수 있는 기능을 바탕으로 이벤트의 전개에 맞춰 실시간 비즈니스 인텔리전스 및 분석을 수행할 수 있도록 해 줍니다.
- 리소스 최적화 및 재사용. 많은 조직이 Hadoop 리소스를 검색 및 확보하는 한편으로 데이터 통합 작업을 재사용 및 표준화하기 위한 프레임워크를 구축해야 한다는 과제를 안고 있습니다. 데이터 통합 플랫폼을 이용하면 IT 리소스를 여러 프로젝트에 재사용할 수 있고, 인력 채용 및 교육에 대한 투자 수익을 높일 수 있을 뿐 아니라, 에코시스템에 의해 지원되는 리소스 가용성을 확보할 수 있습니다.
- 나머지 아키텍처와의 상호 운용성. Hadoop의 합리화를 실현하고 Hadoop을 확장된 환경의 일부로 통합한다는 것은 쉬운 일이 아닙니다. 데이터 통합 플랫폼의 범용 데이터 액세스 및 변환 기능은 Hadoop과 기존 IT 투자 사이의 간격을 메우기 위한 엔드 투 엔드 분석 및 데이터 처리 주기의 일부로서 Hadoop을 추가할 수 있도록 해 줍니다.
데이터 통합에 대한 플랫폼 접근 방식은 메타데이터 관리, 혼합형 작업 로드, 리소스 최적화 및 상호 운용성을 요구하는 프로젝트 등 다양한 Hadoop 프로젝트의 수행에 크게 도움이 될 수 있습니다. 데이터 통합을 위한 플랫폼 접근 방식을 이용하면 Hadoop의 데이터 프로세싱 능력을 완전히 활용하는 동시에 데이터 통합에 있어 개방적이고 중립적이며 완전한 플랫폼의 검증된 기능을 이용할 수 있습니다.
Hadoop을 위한 인포매티카
인포매티카는 고객이 Hadoop에 대한 투자 효과를 높이고 기존의 데이터 통합 기능과 ETL 기술 집합을 활용할 수 있도록 독보적 수준의 지원을 제공합니다. 인포매티카 플랫폼은 다음과 같은 역량을 제공합니다.
- Hadoop으로 입출력되는 데이터의 전처리 및 후처리를 간편하고 신뢰할 수 있는 방식으로 수행
- 이미지, 텍스트, 바이너리, 산업 표준 등 비정형 데이터 소스로부터 더 큰 가치를 창출해 내는 작업에 있어 높은 생산성 발휘
- 메타데이터 중심의 감사 기능 지원
- Hadoop의 구축을 통해 고립된 활동의 거버넌스, 신뢰성 및 보안성 지원
- 뛰어난 데이터 처리 기능과 유연성의 조합
- 높은 처리 속도에 기초한 혼합형 업무 및 동시 실행 관리