Hadoop dans l'entreprise
Tel que Tom White, l'un des plus grands experts d'Hadoop, l'a mentionné dans son livre Hadoop: The Definitive Guide, « La bonne nouvelle, c'est que les grands volumes de données sont bien là. La mauvaise nouvelle, c'est que nous peinons à les stocker et à les analyser ». Avec Hadoop, les entreprises découvrent et mettent en pratique de nouvelles techniques d'analyse et de recherche des données, des techniques auparavant impossibles à mettre en place pour des questions de performances, de coûts et de technologie. En conséquence, Hadoop est une option qui gagne en popularité pour traiter, stocker et analyser d'importants volumes de données brutes, semi-structurées ou non structurées, des données provenant le plus souvent de sources de données disparates.
Cependant, comment et quand utiliser Hadoop ?
La principale force d'Hadoop réside dans son évolutivité et sa rentabilité indubitables qui lui permettent d'exploiter du matériel courant. Ce cadre prend en charge le traitement de tous les types de données – structurées, semi-structurées ou non structurées – et son évolutivité ouverte permet aux développeurs de l'étendre davantage au moyen de fonctionnalités spécialisées pour un large éventail d'applications.
Nombreuses sont les entreprises qui commencent à s'intéresser à Hadoop comme une extension de leurs environnements de sorte à gérer les grands volumes de données, quels qu'en soient le volume, le type et la latence. En conséquence, l'adoption d'Hadoop ira grandissante - dans une récente étude menée sur des utilisateurs de données à grande échelle, plus de la moitié des personnes interrogées ont déclaré considérer l'utilisation d'Hadoop dans leur environnement.
Intégration de données et Hadoop
Hadoop ne remplace pas les systèmes existants. Au lieu de cela, Hadoop augmente leur puissance en permettant le traitement supplémentaire des grands volumes de données de sorte que les systèmes existants puissent se concentrer sur ce qu'ils font le mieux. L'intégration de données joue un rôle majeur pour les entreprises qui souhaitent combiner Hadoop aux données de plusieurs systèmes, l'objectif étant de bénéficier d'une vision inédite autrement impossible à obtenir. La plate-forme Informatica permet aux entreprises d'exploiter le potentiel d'Hadoop au sein d'un environnement hybride pour tirer profit des avantages réellement uniques de chaque technologie et maximiser les performances de l'environnement dans son ensemble.
Utilisation de la plate-forme d'intégration de données pour Hadoop
À l'instar de toute autre technologie émergente, Hadoop n'est pas sans poser quelques défis. Une plate-forme d'intégration de données complète, ouverte et unifiée permet aux entreprises de relever ces défis et de tirer pleinement parti du potentiel d'Hadoop grâce notamment aux fonctionnalités suivantes :
- Accès universel aux données. Les entreprises utiliseront Hadoop pour stocker et traiter de très nombreuses sources de données et souvent relever les défis posés par l'association et le traitement de toutes les données pertinentes. Une plate-forme d'intégration de données aide les entreprises à rendre le pré et le post-traitement des données plus simple et fiable, tant au sein du cadre Hadoop qu'en dehors de celui-ci.
- Analyse et échange de données. Hadoop excelle dans le stockage de nombreux types de données mais la capacité à révéler les significations et à leur donner un sens, quels que soient les types de données pertinentes, est un défi majeur. Une plate-forme d'intégration de données permet d'être plus productif dans le but d'accroître la valeur ajoutée extraite des sources de données non structurées – images, textes, binaires, normes du secteur, etc.
- Gestion des métadonnées. Hadoop manque de fonctions de gestion des métadonnées et de contrôlabilité des données, des fonctions sans lesquelles l'issue des projets est incertaine et incohérente et la visibilité insuffisante. Une plate-forme d'intégration de données fournit des fonctionnalités de gestion des métadonnées complètes avec traçabilité et auditabilité des données, de même qu'elle favorise la normalisation.
- Qualité et gouvernance des données. Si certaines données dans Hadoop sont conservées pour des tâches de stockage ou des expériences n'exigeant pas une qualité de données élevée, la plupart des entreprises utiliseront Hadoop pour générer des rapports et des analyses destinés aux utilisateurs finaux. Elles trouveront d'ailleurs qu'il est difficile d'avoir confiance dans les données sous-jacentes. Une plate-forme d'intégration de données offre les fonctionnalités nécessaires pour effectuer le profilage des données, les nettoyer et les gérer de sorte à mieux comprendre leur signification, à renforcer la confiance qu'elles renvoient et à gérer leur croissance de manière efficace et sécurisée.
- Gestion des charges de travail mixtes. Le cadre Hadoop n'est pas en mesure de gérer les charges de travail mixtes tout en respectant les niveaux de service contractuels. Une plate-forme d'intégration de données permet l'intégration d'ensembles de données provenant du cadre Hadoop et d'autres sources transactionnelles pour une business intelligence et des analyses en temps réel à mesure que les événements se produisent.
- Optimisation et réutilisation des ressources. Les entreprises devront trouver et recruter des ressources Hadoop, ainsi que créer un cadre destiné à réutiliser et à normaliser les tâches d'intégration de données. Une plate-forme d'intégration de données favorise la réutilisation des ressources informatiques d'un projet à l'autre. De plus, elle dynamise le retour sur investissement en matière de recrutement et de formation du personnel et garantit la disponibilité des ressources prises en charge par l'écosystème.
- Interopérabilité avec le reste de l'architecture. Rationaliser Hadoop et l'intégrer dans l'environnement étendu est source de défis. Les fonctionnalités d'une plate-forme d'intégration de données pour l'accès universel aux données et leur transformation supportent l'ajout d'Hadoop dans le cadre d'un cycle d'analyse et de traitement des données de bout en bout, de quoi combler l'écart entre Hadoop et votre investissement informatique existant.
De nombreux projets Hadoop, notamment ceux exigeant une gestion des métadonnées, des charges de travail mixtes, une optimisation des ressources et une part d'interopérabilité, peuvent bénéficier d'une approche de l'intégration des données de type plate-forme. Une telle approche peut vous aider à tirer pleinement parti de la puissance de traitement des données d'Hadoop et à exploiter les fonctionnalités éprouvées d'une plate-forme ouverte, neutre et complète pour l'intégration des données.
Informatica pour Hadoop
Informatica se positionne de manière tout à fait unique pour vous aider à exploiter au maximum vos investissements Hadoop et à utiliser vos compétences existantes en matière d'intégration de données et d'ETL. Avec la plate-forme Informatica, vous pouvez :
- simplifier et crédibiliser le pré et le post-traitement des données tant au sein d'Hadoop qu'à l'extérieur d'Hadoop ;
- améliorer la productivité dans le but d'accroître la valeur ajoutée extraite des sources de données non structurées – images, textes, binaires, normes du secteur, etc. ;
- assurer une auditabilité reposant sur les métadonnées ;
- promouvoir la gouvernance, la confiance et la sécurité des activités en silos avec des déploiements Hadoop ;
- proposer flexibilité et puissance de traitement des données ;
- gérer des charges de travail mixtes et leur simultanéité avec un débit élevé.