Hadoop im Unternehmen
Nach den Worten von Tom White, einem der wichtigsten Experten für Hadoop, in seinem Buch Hadoop: The Definitive Guide „ist die gute Nachricht, dass es Big Data gibt. Die schlechte Nachricht ist, dass wir mit der Speicherung und Analyse zu kämpfen haben.“ Mit Hadoop entdecken Unternehmen neue Methoden der Datenanalyse und des Data Mining und setzen diese um – Techniken, die bisher aus Gründen der Leistung, Kosten und Technologie unpraktisch waren. Infolgedessen wird Hadoop zunehmend zu einer beliebten Option für die Verarbeitung, Speicherung und Analyse riesiger Mengen von halbstrukturierten, unstrukturierten Daten oder Rohdaten, die häufig aus verteilten Datenquellen stammen.
Aber wie und wann genau kann man Hadoop vorteilhaft nutzen?
Die Hauptstärke von Hadoop besteht in nachgewiesener, kosteneffektiver Skalierbarkeit für die Nutzung von Commodity-Hardware. Hadoop unterstützt die Verarbeitung aller Datentypen, strukturiert, halbstrukturiert und unstrukturiert, und die offene Erweiterbarkeit von Hadoop ermöglicht es Entwicklern, das Tool mit speziellen Funktionen für eine breite Palette von Anwendungen zu ergänzen.
Viele Unternehmen sehen Hadoop mittlerweile als eine Erweiterung für ihre Umgebungen an, um die Menge, Geschwindigkeit und Vielseitigkeit von Big Data zu bewältigen. Die Einführung von Hadoop wird also zunehmen. In einer aktuellen Umfrage unter Benutzern, die Daten in großem Umfang nutzen, gaben mehr als die Hälfte der Befragten an, dass sie die Einführung von Hadoop in ihrer Umgebung in Erwägung ziehen.
Datenintegration und Hadoop
Hadoop ist kein Ersatz für vorhandene Systeme. Vielmehr ist Hadoop eine Ergänzung, die die zusätzliche Verarbeitung großer Datenmengen ermöglicht. So können die vorhandenen Systeme vorwiegend für Aufgaben genutzt werden, die sie am besten können. Die Datenintegration spielt eine wesentliche Rolle für Unternehmen, die Hadoop mit Daten aus mehreren Systemen kombinieren und damit bahnbrechende Erkenntnisse erzielen möchten, die auf andere Weise nicht zu erhalten sind. Mit der Informatica Platform können Unternehmen Hadoop innerhalb einer Hybridumgebung einsetzen, um die einzigartigen Stärken der einzelnen Technologien auszuschöpfen und die Leistungsfähigkeit der gesamten Umgebung zu maximieren.
Nutzung einer Datenintegrationsplattform für Hadoop
Wie jede neue Technologie ist auch Hadoop nicht ganz ohne Herausforderungen. Eine umfangreiche, offene und vereinheitlichte Plattform zur Datenintegration ermöglicht es Unternehmen, diese Herausforderungen anzugehen und alle Vorteile von Hadoop mit den folgenden Funktionen zu nutzen:
-
Universeller Datenzugriff: Unternehmen möchten Hadoop zum Speichern und Verarbeiten einer Vielzahl verschiedenster Datenquellen einsetzen. Häufig treten Schwierigkeiten bei der Zusammenführung und Verarbeitung aller relevanten Daten auf. Eine Datenintegrationsplattform unterstützt Unternehmen dabei, Daten für Hadoop entspannt und zuverlässig vor- und nachzubereiten.
-
Datenanalyse und -austausch: Hadoop ist herausragend bei der Speicherung vielfältiger Daten. Die Fähigkeit jedoch, über alle Datentypen hinweg Bedeutungen und einen Sinn abzuleiten, ist eine große Herausforderung. Eine Datenintegrationsplattform erhöht die Produktivität und hilft dabei, aus unstrukturierten Datenquellen wie Bildern, Texten, Binärdateien, Branchenstandards usw. einen größeren Nutzen zu ziehen.
-
Verwaltung von Metadaten: Hadoop fehlt eine Metadatenverwaltung und Prüffähigkeit von Daten. Ohne diese Funktionen sind die Projektergebnisse fragwürdig und weisen eventuell Inkonsistenzen oder eine schlechte Sichtbarkeit auf. Eine Datenintegrationsplattform beinhaltet umfassende Funktionen zur Verwaltung von Metadaten, darunter Data-Lineage und Prüffähigkeit, und fördert die Standardisierung.
-
Datenqualität und Data Governance: Einige Daten in Hadoop werden zwar für Speicher- oder Versuchsaufgaben aufbewahrt, bei denen keine hohe Datenqualität erforderlich ist. Viele Unternehmen setzen Hadoop jedoch für Berichts- und Analyseaufgaben für Endbenutzer ein. Dabei wird es schwer, den zugrunde liegenden Daten zu vertrauen. Eine Datenintegrationsplattform bietet die Funktionen zum Profiling, Bereinigen und Verwalten von Daten, um Kenntnisse über die Bedeutung der Daten zu gewinnen, das Vertrauen zu erhöhen und den Datenzuwachs effektiv und sicher zu bewältigen.
-
Bewältigung von gemischten Auslastungen: Hadoop ist nicht in der Lage, gemischte Auslastungen gemäß den Servicelevel-Vereinbarungen (SLAs) von Benutzern zu bewältigen. Eine Datenintegrationsplattform ermöglicht die Integration von Datensätzen aus Hadoop und anderen Transaktionsquellen, um Business Intelligence-Aufgaben in Echtzeit und Analysen mit dem Auftreten von Ereignissen auszuführen.
-
Optimierung und Wiederverwendung von Ressourcen: Unternehmen müssen Hadoop-Ressourcen finden und beschaffen und einen Rahmen für die Wiederverwendung und Standardisierung von Datenintegrationsaufgaben schaffen. Eine Datenintegrationsplattform fördert die Wiederverwendung von IT-Ressourcen über mehrere Projekte hinweg und steigert die Rendite aus Investitionen in die Personalbeschaffung und Schulungen, wobei gleichzeitig die Verfügbarkeit der vom Umfeld unterstützten Ressourcen gewährleistet ist.
-
Interoperabilität mit dem Rest der Architektur Die Rationalisierung von Hadoop und Integration von Hadoop als Teil der erweiterten Umgebung ist eine Herausforderung. Die Funktionen einer Datenintegrationsplattform für universellen Datenzugriff und Datenumwandlung unterstützen den Einsatz von Hadoop als Ergänzung im Rahmen eines End-to-End-Analyse- und Datenverarbeitungszyklus, um die Kluft zwischen Hadoop und Ihrer vorhandenen IT-Investition zu überbrücken.
Eine Vielzahl von Hadoop-Projekten, darunter solche, die Metadatenverwaltung, gemischte Auslastungen, Ressourcenoptimierung und Interoperabilität erfordern, können von einem Plattformansatz bei der Datenintegration profitieren. Ein Plattformansatz bei der Datenintegration kann Ihnen helfen, die gesamten Vorteile der Datenverarbeitungsleistung von Hadoop zu nutzen und die bewährten Funktionen einer offenen, neutralen und umfassenden Plattform für die Datenintegration auszuschöpfen.
Informatica für Hadoop
Informatica ist einzigartig aufgestellt, um Sie bei der Ausschöpfung Ihrer Investitionen in Hadoop und bei der Nutzung vorhandener Datenintegrations- und ETL-Fähigkeiten zu unterstützen. Mit der Informatica Platform kann Ihr Unternehmen Folgendes erreichen:
- Problemlose und zuverlässige Vor- und Nachbereitung von Daten für Hadoop
- Steigerung der Produktivität, um mehr Nutzen aus unstrukturierten Datenquellen wie Bildern, Texten, Binärdateien, Branchenstandards usw. zu ziehen
- Förderung metadatenorientierter Prüffähigkeit
- Förderung von Governance, Vertrauen und Sicherheit bei isolierten Tätigkeiten mit Hadoop-Bereitstellungen
- Kombinieren von Flexibilität mit hoher Datenverarbeitungsleistung
- Bewältigung gemischter Auslastungen und zeitgleicher Aufgaben mit hohem Durchsatz