Wenn Sie aus Daten einen Wert schöpfen möchten, denken Sie daran, dass Big Data für eine Echtzeitnutzung noch immer zu langsam und zu unstrukturiert sind.
In der Geschäftswelt und im Technologiebereich steht beinahe alles zur Diskussion. Doch eines ist klar und unbestreitbar: Intelligent operierende Unternehmen treffen Entscheidungen auf der Grundlage von Daten. Während die Datenmenge immer umfangreicher und komplexer wird, steigen auch die Anforderungen für die Verarbeitung dieser Daten. Wie kann also sichergestellt werden, dass Entscheidungsträger über Echtzeitdaten verfügen, wenn sie diese benötigen?
Viele der herkömmlichen ETL-Tools (extract, transform, load) weisen bei der Durchführung von Echtzeit-Updates mitunter Defizite auf. Diese Updates können zur Herausforderung werden, wenn komplette Daten-Batches gestaffelt, aktualisiert und verschoben werden müssen. Durch einen installierten Altbestand von Anwendungen, bei denen Datumsangaben hinsichtlich der Erstellung und Änderung von Daten häufig fehlen, wird die ganze Sache weiter verkompliziert.
Erfassung von Datenänderungen
CDC (Change Data Capture) bietet eine Lösung hierfür. Dieser Ansatz zur Datenintegration basiert auf der Ermittlung, Erfassung und Bereitstellung von Änderungen, die an den Datenquellen eines Unternehmens vorgenommen wurden. Das CDC-Konzept ist auch als ereignisbasierte Datenintegration bekannt und damit nicht neu. Doch der Ansatz ist insofern effektiv, als dass nur die Daten gekennzeichnet werden, die eingefügt, aktualisiert oder gelöscht wurden. In der Folge können kleinere Subsets von Daten das System bedarfsgesteuert schneller durchlaufen.
CDC bietet folgende Vorteile:
- Verbesserung der IT-Reaktionsgeschwindigkeit hinsichtlich geschäftlicher Erfordernisse
- Erhöhung der Flexibilität des Unternehmens
- Senkung der IT-Kosten durch geringere Ressourcennutzung
Auch in vertikalen Branchensektoren können z. B. Finanzinstitute, Fertigungsindustriebetriebe und Krankenversicherungen, die sich auf Echtzeitdaten verlassen und routinemäßig große Daten-Batches verarbeiten, von CDC profitieren. Wenn Änderungen durch CDC gekennzeichnet werden, erfolgen Abfragen nur noch für die geänderten Daten und nicht mehr für den gesamten Batch. Anderenfalls würde die Menge der abgefragten Daten eine Echtzeit-Berichterstellung unmöglich machen.
CDC – nicht zwangsläufig das Beste für Big Data
Es gibt Bereiche, in denen mit CDC Glanzleistungen erreicht werden, doch es gibt auch Umstände, unter denen die Daten für eine Erfassung zu sperrig sind. Viele betrachten Big Data als ungenutzte Ressource, deren Wert erschlossen werden kann, sobald die Prozesse und Technologien zur Nutzbarmachung dieser Daten eingesetzt werden. Big Data bestehen jedoch aus weitgehend unstrukturierten oder halbstrukturierten Datensätzen aus mobilen Geräten, sozialen Netzwerken, Protokolldateien, Rechnern und webbasierten Anwendungen.
Der CDC-Ansatz verliert seine Effektivität, wenn Daten unvorhersehbar und nicht sichtbar geändert werden, wie es bei Flat Files der Fall ist. Im Gegensatz dazu stehen strukturierte Daten aus Datenbanken und Data Warehouses. Das Gute an strukturierten Daten ist eben dies – sie sind strukturiert. Folglich können Änderungen mit CDC leicht ermittelt werden. Ohne strukturierte Daten müssen Entwickler „Tail“- und „Named Pipe“-Dateien verwenden, um eine effiziente Big Data-Verarbeitung zu erreichen, bei der nur die Änderungen verfolgt werden.
Informieren Sie sich eingehender darüber, wie IT-Abteilungen und Entwickler CDC nutzen können, um minutengenaue Daten bereitzustellen, und lesen Sie dazu das White Paper „Change Data Capture: Ergebnisse durch ereignisbasierte Daten“.
Article Resources
- 1Lane, Adrian, „What Data Discovery Tools Really Do“ Dark Reading, 20. Januar 2010.
CDC ist effektiv, da nur die Daten gekennzeichnet werden, die geändert oder aktualisiert wurden. In der Folge können kleinere Subsets von Daten das System bedarfsgesteuert schneller durchlaufen."