Bei aller Aufregung um Big Data könnte man glauben, dass Hadoop die Lösung für alle Ihre datenbezogenen Probleme ist. Doch trotz all des Hypes ist Hadoop am Ende wahrscheinlich nur ein weiteres Datensilo. Es ist sogar möglich, dass Hadoop in ein paar Jahren veraltet ist.

Hadoop ist eine leistungsfähige Technologie, aber es ist nur ein Bestandteil der Big Data-Technologielandschaft. Hadoop wurde für bestimmte Datentypen und Workloads entwickelt. Zum Beispiel ist es eine sehr kostengünstige Technologie für die Bereitstellung großer Mengen von Rohdaten (sowohl strukturierte als auch unstrukturierte), die dann weiter verfeinert und für die Analyse vorbereitet werden können. Mit Hadoop können Sie außerdem kostspielige Upgrades der bestehenden proprietären Datenbanken und Data Warehouse Appliances vermeiden, wenn deren Kapazität zu schnell mit nicht verwendeten Rohdaten und ETL-Verarbeitung (Extract, Transform, Load) verbraucht wird. 

Wenn Hadoop aber nicht in den Rest der Datenverwaltungsinfrastruktur integriert ist, wird es jedoch schnell zu einer weiteren Dateninsel, die Ihre IT-Umgebung noch komplexer macht. Ein Aspekt dieser Integration ist die Fähigkeit, Hadoop mit anderen Datenverarbeitungs- und Analysesystemen zu verbinden. Die Vorverarbeitung großer Mengen an Rohdaten kann zum Beispiel in Hadoop stattfinden, wo sie kostengünstig umgesetzt werden kann. Aber dann können die so gewonnenen Daten in ein anderes System außerhalb von Hadoop überführt werden, das sich besser für eine bestimmte Art der Analyse eignet, die für das Unternehmen erforderlich ist.

Der zweite Aspekt der Integration (Integration von Fähigkeiten) ist sogar noch wichtiger. Er ist aber auch schwieriger. In den meisten frühen Hadoop-Einsätzen haben Unternehmen trotz hoher Kosten und nachgelagerter Wartungsprobleme auf zeitaufwendige manuelle Programmierung für die Datenverarbeitung zurückgegriffen. Sie haben das getan, weil es keine Hadoop-Tools gab, die vorhandene Fertigkeiten genutzt haben. Stattdessen erforderten Hadoop-Projekte besondere Fertigkeiten in der Programmierung mit Sprachen wie MapReduce, Hive und Pig.

Informatica optimiert die Datenverarbeitung über alle Ihre Systeme und Plattformen hinweg, sowohl Hadoop als auch Nicht-Hadoop, mit einer Entwicklungsumgebung ohne Programmierung basierend auf der virtuellen Datenmaschine (VDM) Informatica Vibe. Vibe ermöglicht es Datenintegrationsentwicklern, Datenintegrationszuordnungen einmal grafisch zu gestalten und diese Zuordnungen dann an jedem Ort, ob virtuell oder nicht, in traditionellen Datentransferplattformen oder auf Hadoop einzusetzen. Mit Vibe werden Entwickler fünfmal so produktiv, ohne jemals in der Programmierung in Hadoop geschult werden zu müssen. Mit Vibe wird jeder Informatica-Entwickler zu einem Hadoop-Entwickler.

Vibe bietet einen weiteren wichtigen langfristigen Vorteil. Das Big Data-Ökosystem entwickelt sich sehr schnell mit neuen Distributionen, neuen Sprachen und neuen Technologien, die nahezu wöchentlich auftreten. Man kann nicht vorhersagen, wo die Technologie in ein paar Monaten steht, und erst recht nicht, wo sie sich in ein paar Jahren befindet. Mit den Funktionen für „Einmal zuordnen. Überall einsetzen.“ („Map Once. Deploy Anywhere.“) schützt Sie Vibe vor den ständigen Veränderungen, denen Hadoop und andere Big Data-Technologien unterliegen. Wenn Sie eine neue Technologie einsetzen möchten, können Sie mit Vibe Ihre Logik ohne Neuprogrammierung wiederverwenden.

Informatica PowerCenter Big Data Edition mit Informatica Vibe bietet alle Funktionen, die Sie benötigen, um die Datenintegration auf Hadoop erfolgreich zu erstellen und einzusetzen. Jetzt sofort – und mit Vibe können Sie sicher sein, dass Sie auf alles vorbereitet sind, was die Zukunft von Big Data bringen kann.