데이터 품질의 기본 구성요소, 데이터 품질이 비즈니스에 중요한 이유, 데이터 품질을 보다 잘 관리하는 방법에 대해 알아보십시오.

데이터 품질이란?

데이터 품질은 조직의 데이터가 목적에 부합하도록 보장하는 데이터 거버넌스의 필수적인 부분입니다. 이는 데이터 세트의 전반적인 유용성과 다른 용도로 쉽게 처리 및 분석할 수 있는 능력을 나타냅니다. 완전성, 적합성, 일관성, 정확성 및 무결성과 같은 데이터 품질 요소를 관리하면 데이터 거버넌스, 분석 및 AI/ML 이니셔티브가 안정적으로 신뢰할 수 있는 결과를 제공하는 데 도움이 됩니다.

 

데이터 거버넌스 프레임워크의 그래픽 표현 | Informatica

데이터 품질은 멀티 클라우드 환경에서 일관되게 관리되어야 합니다.

데이터 품질에 대해 알아야 할 사항은 무엇입니까?

고품질 데이터는 유용한 데이터입니다. 고품질 데이터가 되려면 데이터가 일관되고 분명해야 합니다. 데이터 품질 문제는 호환되어야 하는 데이터 필드가 스키마 또는 형식 불일치로 인해 호환되지 않는 데이터베이스 병합 또는 시스템/클라우드 통합 프로세스의 결과인 경우가 많습니다. 품질이 낮은 데이터는 품질을 높이기 위해 데이터 정리를 거칠 수 있습니다.

데이터 품질이 제공하는 이점은 무엇입니까?

데이터의 품질이 우수하면 데이터를 쉽게 처리하고 분석할 수 있으므로 조직이 더 나은 결정을 내리는 데 도움이 되는 통찰력을 얻을 수 있습니다. 고품질 데이터는 클라우드 분석, AI 이니셔티브, 비즈니스 인텔리전스 작업 및 기타 유형의 데이터 분석에 필수적입니다.

조직이 데이터에서 더 많은 가치를 추출하는 데 도움이 되는 것 외에도 데이터 품질 관리 프로세스는 조직의 효율성과 생산성을 향상시키는 동시에 열악한 품질의 데이터와 관련된 위험과 비용을 줄입니다. 한마디로 데이터 품질은 디지털 혁신을 주도하는 신뢰할 수 있는 데이터의 기초이며 데이터 품질에 대한 전략적 투자는 기업 전체의 여러 활용 사례에서 성공을 반복할 것입니다.

데이터 품질 관리에는 어떤 활동이 포함됩니까?

데이터 품질 활동에는 데이터 합리화 및 유효성 검사가 포함됩니다. 데이터 품질 작업은 기업의 인수 합병 활동 중에 발생하는 서로 다른 애플리케이션의 통합에 필요할 뿐만 아니라 단일 조직 내의 고립된 데이터 시스템이 클라우드 데이터 웨어하우스 또는 데이터 레이크에서 처음으로 통합되는 경우에도 필요합니다. 데이터 품질은 ERP(전사적 자원 관리) 또는 CRM(고객 관계 관리)과 같은 수평적 비즈니스 애플리케이션의 효율성에도 매우 중요합니다.

 

데이터 품질의 기본 구성요소

데이터 품질 관리의 성공은 분석의 정확성에 대한 확신, 데이터가 다양한 이니셔티브를 얼마나 잘 지원하는지, 그리고 이러한 이니셔티브가 실질적인 전략적 가치를 얼마나 빨리 제공하는지에 따라 측정됩니다(데이터 품질 ROI를 평가하고 싶으십니까? 온라인 계산기를 사용하십시오). 이러한 모든 목표를 달성하려면 데이터 품질 툴이 다음을 수행할 수 있어야 합니다.

  • 모든 활용 사례 지원: 데이터 마이그레이션에는 차세대 분석과는 다른 데이터 품질 메트릭스가 필요합니다. 특정 활용 사례에 적합한 기능을 선택할 수 있도록 하는 하나의 통합 솔루션을 위하여 획일적인 접근 방식은 피하십시오. 예를 들어 데이터를 마이그레이션하는 경우 데이터를 이동하기 전에 먼저 보유한 데이터를 파악해야 합니다(프로파일링). 분석 활용 사례의 경우 데이터를 정리, 구문 분석, 표준화 및 중복 제거하려고 합니다.
  • 가속화 및 확장: 데이터 품질은 웹 서비스, 배치, 빅 데이터 및 실시간 워크로드에 똑같이 중요합니다. 위치(온프레미스, 클라우드) 또는 속도(배치, 실시간, 센서/IoT 등)에 관계없이 신뢰할 수 있고, 안전하며, 관리되고, 사용하기에 적합해야 합니다. 모든 부서의 모든 워크로드에 맞게 확장되는 솔루션을 찾으십시오. 즉시 사용 가능한 비즈니스 규칙 및 가속기와 역할 기반 셀프 서비스 툴을 사용하여 하나의 애플리케이션 또는 프로세스 내의 데이터 품질에 중점을 두어 데이터를 프로파일링, 준비 및 정리하는 것으로부터 시작할 수 있습니다. 그런 다음 프로그램을 확장할 준비가 되면 모든 애플리케이션과 데이터 유형에 동일한 비즈니스 규칙과 정리 프로세스를 규모에 맞게 배포할 수 있습니다.
  • 유연한 사용자 환경 제공: 데이터 과학자, 데이터 관리자 및 데이터 소비자는 모두 데이터 작업에 대한 특정 기능, 기술 및 관심사를 가지고 있습니다. 모든 팀 구성원이 IT 개입 없이 목표를 달성할 수 있도록 역할별로 사용자 환경을 조정하는 데이터 품질 솔루션을 선택하십시오.
  • 중요 작업 자동화: 오늘날 기업 데이터의 양, 다양성 및 속도는 데이터 품질의 수동 관리를 불가능하게 만듭니다. AI 기반 솔루션은 자동으로 데이터 품질을 평가하고 조직 전체에서 데이터 검색 및 데이터 품질 규칙 생성과 같은 주요 작업을 간소화하는 지능형 권장 사항을 제시할 수 있습니다.

데이터 품질의 요소

데이터 품질은 다음과 같은 6가지 핵심 요소에서 운영됩니다.

  1. 정확성: 데이터는 모델링하려는 실제 개체 및/또는 이벤트를 반영합니다. 정확성은 주로 값이 올바른 것으로 알려진 정보 소스와 얼마나 일치하는지에 따라 측정됩니다.
  2. 완전성: 데이터는 필요한 모든 레코드와 값을 사용할 수 있도록 합니다.
  3. 일관성: 여러 위치에서 가져온 데이터 값은 레코드나 메시지 또는 단일 속성의 모든 값에서 서로 충돌하지 않습니다. 일관된 데이터가 반드시 정확하거나 완전한 것은 아닙니다.
  4. 적시성: 데이터는 정확성, 접근성 및 가용성에 대한 사용자 요구 사항을 충족하도록 실시간으로 필요한 만큼 자주 업데이트됩니다.
  5. 유효성: 데이터는 정의된 비즈니스 규칙을 준수하며 해당 규칙이 적용될 때 허용되는 매개 변수 내에 속합니다.
  6. 고유성: 레코드가 여러 위치에 있더라도 데이터 세트 내에서 두 번 이상 존재하지 않습니다. 모든 레코드는 데이터 세트 내에서 그리고 애플리케이션 전반에서 고유하게 식별되고 액세스될 수 있습니다.

이러한 6가지 데이터 품질 요소가 모두 중요하지만 조직에서는 특정 활용 사례를 지원하기 위해 그 중 일부를 다른 요소보다 더 강조해야 할 수도 있습니다. 예를 들어, 제약 산업에서는 정확성을 요구하는 반면, 금융 서비스 회사는 유효성을 우선시해야 합니다.

데이터 품질 메트릭스의 예

일부 데이터 품질 메트릭스는 조직 및 산업 전반에 걸쳐 일관됩니다. 예를 들어, 고객 청구 및 배송 정보가 정확하고 웹사이트에서 제품 및 서비스에 대한 모든 필요한 세부 정보를 제공하며 직원 기록이 최신 상태이며 정확합니다.

다음은 다양한 산업과 관련된 몇 가지 예입니다.

  • 의료 데이터 품질 메트릭스

    의료 기관에는 적절한 치료, 빠르고 정확한 청구, 위험 관리, 효과적인 제품 가격 책정 및 영업을 촉진하기 위한 완전하고 정확하며 고유한 환자 기록이 필요합니다.
  • 공공 부문 데이터 품질 메트릭스

    공공 부문 기관은 목표를 얼마나 잘 달성하고 있는지 파악하기 위해 구성 요소, 제안된 이니셔티브 및 현재 프로젝트에 대한 완전하고 일관되며 정확한 데이터를 필요로 합니다.
  • 금융 서비스 데이터 품질 메트릭스

    금융 서비스 회사는 중요한 데이터를 식별 및 보호하고 보고 프로세스를 자동화하며 규정 준수를 모니터링 및 수정해야 합니다.
  • 제조 데이터 품질 메트릭스

    제조업체는 정확한 고객 및 공급업체 레코드를 유지하고 QA 문제 및 유지 관리 요구 사항을 적시에 통지받으며 운영 비용을 절감할 수 있도록 전체 공급업체 지출을 추적해야 합니다.

데이터 품질 문제

열악한 데이터 품질의 결과는 사소한 불편에서 비즈니스 실패에 이르기까지 다양할 수 있습니다. 데이터 품질 문제는 시간을 낭비하고 생산성을 감소시키며 비용을 증가시킵니다. 또한 고객 만족도를 떨어뜨리고 브랜드 평판을 손상시키며 조직이 규정 불이행에 대해 중징계를 받게 하거나 고객이나 대중의 안전을 위협할 수도 있습니다. 다음은 데이터 품질 문제에 따르는 결과에 직면하여 이를 해결할 방법을 찾은 회사의 몇 가지 사례입니다.

  • 데이터 품질이 낮으면 귀중한 교차 판매 및 상향 판매 기회가 가려지고, 기업이 혁신적인 제품 및 서비스에 영감을 주거나 새로운 시장에 진출할 수 있도록 해줄 수 있는 제품의 차별화를 찾아내는 데 어려움을 겪게 합니다. Nissan Europe의 고객 데이터는 신뢰성이 떨어지고 단절된 여러 시스템에 분산되어 있었기 때문에 맞춤형 제품을 만들고 효과적으로 공략하기가 어려웠습니다. 이 회사는 데이터 품질을 개선함으로써 현재 고객 및 잠재 고객에 대한 이해도를 높임으로써 고객 커뮤니케이션을 개선하고 전환율을 높이는 동시에 마케팅 비용을 절감할 수 있었습니다.
  • 열악한 데이터 품질은 수동 프로세스가 실패하거나 정확성을 반복적으로 확인해야 할 때 시간을 낭비하고 재작업을 하게 만듭니다. CA Technologies는 주요 Salesforce 마이그레이션을 위해 몇 달에 걸쳐 고객 연락처 데이터를 수동으로 수정하고 개선해야 하는 상황에 직면했습니다. 마이그레이션 및 통합 프로세스에 자동화된 이메일 검증 및 기타 데이터 품질 측정 방법을 통합함으로써, 이 회사는 예상보다 적은 수의 마이그레이션 팀을 활용하면서 측정 가능한 더 나은 데이터로 프로젝트를 할당된 시간의 1/3 내에 완료할 수 있었습니다.
  • 데이터 품질이 낮으면 운영에 대한 가시성을 저해하고, 산업 규정을 준수하기 어렵게 만들기 때문에 위반 시 막대한 벌금으로 이어지게 됩니다. 네덜란드에서 두 번째로 큰 은행인 Rabobank는 스프레드시트에서 데이터 연계를 추적하고 있었기 때문에 위험 관리 및 보고 규정 준수를 입증하는 능력이 떨어졌습니다. 이 은행은 데이터에 대한 메타데이터를 수집하고 추적하는 자동화된 시스템을 구축함으로써 시스템 전반에 걸쳐 보고를 강화하고 감사자에게 투명성을 제공할 수 있었습니다. 또한 이 은행은 데이터 품질 문제를 더 잘 파악하고 수정할 수 있으므로 일상적인 운영이 향상되었습니다.

 

데이터 품질 개선을 시작하기 위한 4단계

1. 탐색

시작점을 이해한 후에만 데이터 품질을 향한 여정을 계획할 수 있습니다. 이를 위해서는 데이터의 현재 상태, 즉 현재 보유 중인 데이터, 데이터 위치, 민감도, 데이터 관계 및 데이터 품질 문제를 평가해야 합니다.

2. 규칙 정의

탐색 단계에서 수집하는 정보는 필요한 데이터 품질 조치와 원하는 최종 상태를 달성하기 위해 만들 규칙에 대한 결정을 구체화합니다. 예를 들어, 데이터를 정리 및 중복 제거하거나 형식을 표준화하거나 특정 날짜 이전의 데이터를 삭제해야 할 수 있습니다. 이는 비즈니스와 IT 간의 협업 프로세스라는 점에 유의하십시오.

3. 규칙 적용

규칙을 정의한 후에는 데이터 파이프라인에 통합합니다. 사일로에 갇히지 마십시오. 조직 전체에서 데이터 품질을 개선하려면 모든 데이터 소스와 대상에 데이터 품질 툴을 통합해야 합니다.

4. 모니터링 및 관리

데이터 품질 작업은 한 번으로 끝나는 것이 아닙니다. 이를 유지하려면 대시보드, 스코어카드 및 시각화를 사용하여 온프레미스 및 클라우드에서 모든 데이터 품질 프로세스를 지속적으로 모니터링하고 보고할 수 있어야 합니다.

 

데이터 품질 고객 성공 사례

시카고 컵스

이 유명한 메이저 리그 야구 팀은 데이터에 의존하여 보다 풍부한 야구장 경험을 제공하고, 브랜드 상품에 대한 마케팅 기회를 극대화하며, 선수, 직원 및 인프라에 대한 최선의 투자 방법을 결정합니다. 이 팀은 Informatica Data Quality를 통해 24개의 온프레미스 및 클라우드 시스템과 제3자의 데이터를 정리 및 개선하여 새로운 수익을 창출하고 더 빠른 결정을 내리며 전 세계 수백만 명의 팬들과 평생 관계를 구축할 수 있습니다.

AIA 싱가포르

싱가포르의 선도적인 금융 서비스 및 보험 회사 중 하나인 AIA Singapore는 Informatica Data Quality를 구축하여 데이터를 프로파일링하고 KPI(핵심 성과 지표)를 추적하며 개선 작업을 수행했습니다. 고품질 데이터는 고객 정보 및 기타 중요한 비즈니스 데이터에 대한 심층적인 이해를 증진하여 회사가 영업, 의사 결정 및 운영 비용을 최적화하는 데 도움이 됩니다.

 

데이터 가치의 실현 시작

데이터는 어디에나 있으며 데이터 품질은 모든 사람이 어디서나 데이터를 최대한 활용하기 위해 매우 중요합니다. 데이터 품질을 개선하기 위해 작업할 때는 다음 원칙을 기억하십시오.

  • 데이터 품질을 전사적 전략 이니셔티브로 만듭니다.
  • 데이터 거버넌스에 대한 데이터 품질의 중요성을 강조합니다.
  • 데이터 품질을 운영에 통합합니다.
  • 비즈니스 사용자와 협력하여 데이터를 상황별로 분류하고 그 가치를 평가합니다.
  • 데이터 품질을 새로운 영역(데이터 레이크, AI, IoT) 및 새로운 데이터 소스로 확장합니다.
  • AI/머신 러닝을 활용하여 레코드 병합 및 패턴 일치와 같은 반복 작업을 자동화합니다.

데이터 품질을 모든 기업 데이터에 영향을 미치는 광범위한 인프라에 통합하는 Informatica의 통합 Intelligent Data Platform을 사용하면 이 모든 것이 훨씬 쉬워집니다.