Si desea extraer valor de los datos, recuerde que el Big Data sigue siendo demasiado lento y no estructurado para el tiempo real.
En el mundo de los negocios y la tecnología, casi todo se puede debatir. Pero hay una cosa clara e irrefutable: las organizaciones inteligentes toman decisiones basadas en datos. A medida que los volúmenes de datos crecen en tamaño y complejidad, la demanda de procesar esos datos también aumenta. Así pues, ¿cómo se asegura de que los responsables de tomar decisiones disponen de datos en tiempo real cuando los necesitan?
Lamentablemente, muchas herramientas tradicionales de extracción, transformación y carga (ETL) pueden quedarse cortas a la hora de proporcionar actualizaciones en tiempo real. Pueden convertirse en un desafío cuando hay que almacenar, actualizar y mover lotes completos de datos. El problema se complica aún más con las bases instaladas de aplicaciones heredadas que a menudo carecen de fechas de creación y cambio de datos.
Captura de cambios de datos
Una solución es la captura de cambios de datos (CDC), un enfoque de la integración de datos basado en la identificación, captura y entrega de cambios realizados en las fuentes de datos empresariales. La CDC, también conocida como integración de datos basada en eventos, no es algo nuevo. Pero es eficaz en que señala sólo los datos que se han insertado, actualizado o eliminado. Como resultado, subconjuntos más pequeños de datos pueden moverse con más rapidez a través del sistema, según sea necesario.
Entre los beneficios de la CDC se incluyen:
- Mayor capacidad de respuesta de IT a las necesidades del negocio
- Agilidad empresarial mejorada
- Reducción de costes de IT a través del uso de menos recursos
La CDC también beneficia a sectores verticales como entidades financieras, empresas de fabricación y empresas de seguros de salud, que confían en información en tiempo real y realizan grandes trabajos en batch de forma habitual. Si la CDC señala cambios, las consultas sólo se realizan en los datos cambiados, en lugar de en todo el batch. De lo contrario, la cantidad de datos consultados prohibiría la información en tiempo real.
La CDC no es la mejor opción del Big Data
Al igual que hay áreas donde la CDC destaca, también hay circunstancias en las que los datos son demasiado difíciles de manejar para capturarlos. Muchos señalan el Big Data como un recurso sin explotar que resultará valioso una vez que se disponga de los procesos y la tecnología para aprovechar esos datos. Pero el Big Data consta fundamentalmente de conjuntos de datos no estructurados o semiestructurados de dispositivos móviles, redes sociales, archivos de registro, máquinas y aplicaciones basadas en web.
La CDC pierde su eficacia cuando los datos cambian de manera imprevisible y oculta, como ocurre en los ficheros planos. Esto contrasta con los datos estructurados que se encuentran en bases de datos y data warehouses. Lo bueno de los datos estructurados es precisamente eso, que están estructurados. Como resultado, la CDC puede detectar fácilmente los cambios. Sin datos estructurados, los desarrolladores deberán utilizar ficheros pipe con nombre y "tail" para proveer sólo los cambios para un procesamiento eficaz del Big Data.
Descubra más sobre cómo los departamentos de IT y los desarrolladores pueden aprovechar la CDC para ofrecer datos actualizados en el white paper “Change Data Capture: Driving Results with Event Driven Data".
Referencias
- 1Lane, Adrian, “What Data Discovery Tools Really Do” (Para qué sirven realmente las herramientas de detección de datos), Dark Reading, 20 de enero de 2010.
La CDC es eficaz porque señala sólo los datos que se han cambiado o actualizado. Como resultado, batches más pequeños de datos pueden moverse con más rapidez a través del sistema, según sea necesario."