Hadoop in the Enterprise

Como Tom White, uno de los principales expertos en Hadoop, afirmó en su libro Hadoop: The Definitive Guide,"La buena noticia es que el Big Data ya está aquí. La mala noticia es que estamos teniendo dificultades para almacenarlo y analizarlo". Con Hadoop, las organizaciones están descubriendo y poniendo en práctica nuevos análisis de datos y técnicas de extracción que antes eran inviables por motivos de rendimiento, costes y tecnología. Como resultado, Hadoop se está convirtiendo cada vez más en una opción popular para procesar, almacenar y analizar grandes volúmenes de datos semiestructurados, no estructurados o sin procesar que, a menudo, proviene de fuentes de datos dispares.

¿Pero exactamente cómo y cuándo puede beneficiarse de Hadoop?

El principal punto fuerte de Hadoop es la escalabilidad rentable y probada que ofrece para sacar partido del hardware básico. Ofrece soporte para el procesamiento de todos los tipos de datos (estructurados, semiestructurados o no estructurados) y la capacidad de ampliación abierta de Hadoop permite a los desarrolladores enriquecerlo con capacidades especializadas para una amplia gama de aplicaciones.

Muchas organizaciones están comenzando a considerar a Hadoop como una ampliación de sus entornos para afrontar el volumen, la velocidad y la variedad del Big Data. Como resultado, la adopción de Hadoop aumentará. En una encuesta reciente realizada a usuarios de datos a gran escala, más de la mitad de los encuestados afirmaron que se están planteando introducir Hadoop en su entorno.

Integración de datos y Hadoop

Hadoop no sustituye a los sistemas existentes. En su lugar, Hadoop los enriquece al permitir el procesamiento adicional de grandes volúmenes de datos, de forma que los sistemas existentes puedan centrarse en lo que mejor hacen. La integración de datos desempeña un papel fundamental para las organizaciones que desean combinar Hadoop con datos de varios sistemas para obtener una perspectiva de negocio revolucionaria que no sería posible adquirir de otro modo. La plataforma de Informatica permite a las organizaciones aprovechar Hadoop dentro de un entorno híbrido, con el fin de sacar partido de los excepcionales puntos fuertes de cada tecnología y maximizar el rendimiento del entorno global.

Uso de una plataforma de integración de datos para Hadoop

Como cualquier tecnología emergente, Hadoop no está libre de desafíos. Una plataforma de integración de datos completa, abierta y unificada permite a las organizaciones hacer frente a estos desafíos y sacar el máximo partido de Hadoop mediante la provisión de las siguientes capacidades:

  • Acceso universal a los datos: las organizaciones utilizarán Hadoop para almacenar y procesar diversas fuentes de datos y, a menudo, afrontarán desafíos relacionados con la combinación y el procesamiento de todos los datos pertinentes. Una plataforma de integración de datos ayuda a las organizaciones a obtener facilidad y fiabilidad en el procesamiento previo y posterior de datos dentro y fuera de Hadoop
  • Análisis e intercambio de datos: Hadoop sobresale en el almacenamiento de una gran diversidad de datos, pero la capacidad para extraer significados y darles sentido en todos los tipos de datos pertinentes plantea un enorme desafío. Una plataforma de integración de datos ayuda a mejorar la productividad para extraer más valor de las fuentes de datos no estructurados (imágenes, textos, binarios, estándar del sector, etc.).
  • Gestión de metadatos. Hadoop carece de gestión de metadatos y auditabilidad de datos, sin los cuales, los resultados de los proyectos son sospechosos y pueden adolecer de incoherencia y escasa visibilidad. Una plataforma de integración de datos proporciona exhaustivas capacidades de gestión de metadatos, con linaje y auditabilidad de datos, y promueve la estandarización.
  • Calidad y gobierno de datos Aunque algunos datos en Hadoop se conservan para tareas de almacenamiento o de experimentación que no requieren un alto nivel de calidad de datos, muchas organizaciones utilizarán Hadoop para el análisis y la elaboración de informes del usuario final. Les resultará difícil confiar en los datos subyacentes. Una plataforma de integración de datos proporciona capacidades para perfilar, limpiar y gestionar datos con el fin de comprender mejor su significado, aumentar la confianza y gestionar el crecimiento de los datos de forma eficaz y segura.
  • Gestión de cargas de trabajo mixtas. Hadoop no puede gestionar cargas de trabajo mixtas de conformidad con los acuerdos de nivel de servicio. Una plataforma de integración de datos permite la integración de conjuntos de datos de Hadoop y otras fuentes de transacciones para llevar a cabo business intelligence y análisis en tiempo real según las necesidades.
  • Optimización y reutilización de recursos. . Las organizaciones deberán encontrar y conseguir recursos de Hadoop y crear una estructura para reutilizar y estandarizar las tareas de integración de datos. Una plataforma de integración de datos promueve la reutilización de recursos de IT en diversos proyectos y aumenta el retorno de la inversión en términos de contratación y formación de personal, al tiempo que garantiza la disponibilidad de recursos compatibles con el ecosistema.
  • Interoperabilidad con el resto de la arquitectura. La racionalización e incorporación de Hadoop como parte del entorno ampliado supone un desafío. Las capacidades de acceso universal a los datos y la transformación de una plataforma de integración de datos respalda la incorporación de Hadoop como parte de un ciclo de procesamiento de datos y análisis integral, que ayuda a salvar las distancias entre Hadoop y su inversión en IT existente.

Una variedad de proyectos de Hadoop, incluidos los que requieren la gestión de metadatos, cargas de trabajo mixtas, optimización de recursos e interoperabilidad, puede beneficiarse de un enfoque de plataforma a la integración de datos. La aplicación de un enfoque de plataforma a la integración de datos puede ayudarle a sacar el máximo partido a la potencia de procesamiento de datos de Hadoop, así como a explotar las capacidades probadas de una plataforma abierta, neutra y completa para integrar datos.

Informatica para Hadoop

Informatica ocupa una posición única para ayudarle a sacar mayor provecho a su inversión en Hadoop, así como a aprovechar la integración de datos existente y los conjuntos de competencias de extracción, transformación y carga (ETL). Con la plataforma de Informatica, puede:

  • Obtener facilidad y fiabilidad en el procesamiento previo y posterior de datos dentro y fuera de Hadoop
  • Mejorar la productividad para extraer más valor de las fuentes de datos no estructurados (imágenes, textos, binarios, estándar del sector, etc.).
  • Posibilitar una auditabilidad basada en metadatos
  • Promover el gobierno, la fiabilidad y la seguridad de las actividades en silos con implantaciones de Hadoop
  • Combinar la flexibilidad gracias a una gran potencia de procesamiento de datos
  • Gestionar cargas de trabajo mixtas y la simultaneidad con una elevada velocidad de transmisión