Si vous souhaitez extraire une valeur ajoutée de vos données, rappelez-vous que les Big Data sont toujours trop lentes et pas suffisamment structurées pour le monde réel.
Dans l'univers des entreprises et des technologies, presque tout peut faire l'objet d'un débat. Une chose est sûre et irréfutable cependant : les entreprises intelligentes basent leurs décisions sur les données. Alors que le volume et la complexité des données augmentent, les exigences en matière de traitement de ces données augmentent également. Dans ce contexte, comment s'assurer que les décisionnaires disposent de données en temps réel quand ils en ont besoin ?
Malheureusement, de nombreux outils traditionnels d'extraction, de transformation et de chargement (ETL) peuvent s'avérer insuffisants lorsqu'il s'agit de fournir des mises à jour en temps réel. Ils peuvent devenir un véritable défi lorsque des lots complets de données doivent être organisés, mis à jour et déplacés. Le problème est aggravé par les bases d'applications héritées installées qui n'indiquent souvent pas les dates de création et de modification des données.
Capture différentielle de données
Une solution est d'opter pour la capture différentielle de données (CDC), une approche de l'intégration de données basée sur l'identification, la capture et la livraison des changements apportés aux sources de données d'entreprise. Également connue sous le nom d'intégration de données basée sur des événements, la CDC n'est pas un concept nouveau. Il s'agit toutefois d'une solution efficace puisqu'elle met uniquement en évidence les données qui ont été ajoutées, mises à jour ou supprimées. Par conséquent, vous pouvez déplacer plus rapidement de petits sous-ensembles de données dans le système, selon vos besoins.
Les bénéfices de la CDC comprennent :
- Une accélération de la réactivité du service informatique face aux besoins métiers
- Une amélioration de la flexibilité de l'entreprise
- Une réduction des coûts informatiques grâce à une utilisation plus limitée des ressources
La CDC profite également aux secteurs verticaux, tels que les institutions financières, les entreprises industrielles et les compagnies d'assurance maladie qui s'appuient sur des informations en temps réel et exécutent couramment de grands projets par lots. Lorsque la CDC signale des changements, les requêtes portent uniquement sur les données modifiées, et non sur l'ensemble du lot. Dans le cas contraire, la quantité de données faisant l'objet d'une requête ne permettrait pas le reporting en temps réel.
La CDC, inadaptée aux Big Data
Si la CDC est la solution idéale dans certains domaines, dans certaines circonstances, les données sont trop ingérables pour être capturées. Beaucoup considèrent les Big Data comme une ressource inexploitée qui deviendra précieuse une fois que les processus et technologies nécessaires pour exploiter ces données seront en place. Mais les Big Data se composent en grande partie d'ensembles de données non structurées ou semi-structurées provenant de périphériques mobiles, de réseaux sociaux, de fichiers journaux, de machines et d'applications basées le Web.
La CDC perd de son efficacité lorsque les données changent de manière imprévue et invisible, comme c'est le cas dans les fichiers plats. D'un autre côté, nous avons les données structurées qui se trouvent dans les bases de données et data warehouses. L'avantage des données structurées, c'est que, comme leur nom l'indique, elles sont structurées. Par conséquent, la CDC peut facilement détecter les changements qui y sont apportés. Sans données structurées, les développeurs devront utiliser des fichiers « tail » et des fichiers de canaux nommés pour faire circuler uniquement les modifications et assurer un traitement efficace des Big Data.
Pour en savoir plus sur la manière dont les services informatiques et les développeurs peuvent exploiter la CDC pour assurer un accès immédiat aux données, lisez le livre blanc « Change Data Capture: Driving Results with Event Driven Data » (Capture différentielle de données : améliorez vos résultats grâce aux données événementielles).
Ressources de l'article
- 1Lane, Adrian, « What Data Discovery Tools Really Do » (Ce que font vraiment les outils de recherche de données), Dark Reading, 20 janvier 2010.
L'efficacité de la CDC est due au fait qu'elle met uniquement en évidence les données qui ont été modifiées ou mises à jour. Par conséquent, vous pouvez déplacer plus rapidement de petits lots de données dans le système, selon vos besoins.»