Hadoop in het bedrijf
Tom White, een van de vooraanstaande experts voor Hadoop, zegt in zijn boek Hadoop: The Definitive Guide“Het goede nieuws is dat Big Data een feit zijn. Het slechte nieuws is dat we worstelen met het opslaan en analyseren van die data.” Met Hadoop ontdekken en implementeren organisaties nieuwe technieken voor data-analyse en -gebruik die voorheen onhaalbaar waren vanwege de performance, de kosten of de technologie. Hierdoor wordt Hadoop meer en meer een populaire optie voor het verwerken, opslaan of analyseren van grote hoeveelheden semi-gestructureerde, ongestructureerde of onbewerkte data die vaak uit ongelijksoortige systemen afkomstig zijn.
Hoe en wanneer kunt u echter uw voordeel doen met Hadoop?
Dé kracht van Hadoop ligt in de bewezen rendabele schaalbaarheid om standaardhardware te benutten. Hadoop biedt ondersteuning voor de verwerking van alle datatypen (gestructureerd, semi-gestructureerd of ongestructureerd). Door de open uitbreidbaarheid kunnen ontwikkelaars Hadoop combineren met gespecialiseerde functies voor een breed scala aan applicaties.
Tal van organisaties beginnen te onderzoeken hoe ze met Hadoop hun omgeving kunnen uitbreiden om het volume, de snelheid en de verscheidenheid van Big Data op te vangen. Hierdoor groeit de acceptatie van Hadoop. Uit een onlangs gehouden enquête onder grote datagebruikers blijkt dat meer dan de helft van de respondenten overweegt Hadoop in hun omgeving te implementeren.
Data-integratie en Hadoop
Hadoop vervangt geen bestaande systemen. In plaats daarvan vult Hadoop de systemen aan met de mogelijkheid grote hoeveelheden data te verwerken. Op deze manier worden bestaande systemen niet overbelast. Data-integratie speelt een essentiële rol voor organisaties die Hadoop met data uit meerdere systemen willen combineren, zodat doorslaggevende bedrijfsinzichten kunnen worden gerealiseerd die anderszins onmogelijk zijn. Het Informatica-platform biedt organisaties de mogelijkheid Hadoop in een hybride omgeving in te zetten, waardoor de unieke kracht van elke technologie kan worden benut en de prestaties van de gehele omgeving kunnen worden gemaximaliseerd.
Een data-integratieplatform gebruiken voor Hadoop
Hadoop heeft net als andere opkomende technologieën uitdagingen die moeten worden overwonnen. Door een uitgebreid, open en uniform data-integratieplatform te gebruiken, kunnen organisaties deze uitdagingen aanpakken en ten volle profiteren van Hadoop met behulp van de volgende functies:
-
Universele datatoegang. Organisaties werken met Hadoop om verschillende databronnen op te slaan en te verwerken. Vaak lopen de organisaties tegen problemen aan bij het combineren en verwerken van alle relevante data. Een data-integratieplatform verschaft organisaties gebruiksgemak en betrouwbaarheid bij de vóór- en naverwerking van data in en uit Hadoop.
-
Dataparsering en -uitwisseling. Hadoop blinkt uit in het opslaan van uiteenlopende data. Het vermogen zinvolle analyses van alle relevante datatypen te genereren, vormt echter een grote uitdaging. Een data-integratieplatform helpt u de productiviteit te verbeteren, zodat u waardevollere informatie kunt extraheren uit ongestructureerde databronnen (zoals afbeeldingen, tekstbestanden, binary's, industrienormen, enz.).
-
Metadata beheren. In Hadoop zijn geen functies voor metadatabeheer en controleerbaarheid van data ingebouwd. Zonder deze functies zijn de resultaten van projecten onbetrouwbaar en kunnen deze inconsistent of onduidelijk zijn. Een data-integratieplatform biedt volledige mogelijkheden voor metadatabeheer, met data-lineage en controleerbaarheid, en bevordert de standaardisatie.
-
Datakwaliteit en -governance. Sommige data in Hadoop worden bewaard voor opslag- of testdoeleinden waarvoor geen hoog datakwaliteitsniveau vereist is. Veel organisaties maken echter gebruik van Hadoop voor rapportage en analyses van eindgebruikers. Die organisaties zullen het lastig vinden de onderliggende data te vertrouwen. Een data-integratieplatform biedt mogelijkheden voor het profileren, cleanen en beheren van data, waardoor de betekenis van data duidelijker wordt, het vertrouwen groter wordt en de datagroei doeltreffend en veilig kan worden opgevangen.
-
Mixed workload management. Hadoop is not able to manage mixed workloads according to user service-level agreements (SLAs). A data integration platform enables integration of data sets from Hadoop and other transaction sources to do real-time business intelligence and analytics as events unfold.
-
Beheer van gemengde workloads. Hadoop kan geen gemengde workloads beheren op basis van serviceovereenkomsten (SLA's) van gebruikers. Een data-integratieplatform biedt de mogelijkheid datasets uit Hadoop en overige databronnen te integreren om real-time business intelligence en analyses te genereren zodra gebeurtenissen zich voordoen.
-
Optimalisatie en hergebruik van resourcesOrganisaties moeten Hadoop-resources zoeken en toepassen en een raamwerk opzetten voor het hergebruiken en standaardiseren van data-integratietaken. Een data-integratieplatform bevordert het hergebruik van IT-resources voor meerdere projecten en verhoogt het investeringsrendement bij het werven en opleiden van nieuw personeel. De beschikbaarheid van resources die door het ecosysteem worden ondersteund, blijft daarbij gegarandeerd.
-
Interoperabiliteit met de rest van de architectuur. Het rationaliseren van Hadoop en het integreren van Hadoop als onderdeel van de vergrote omgeving is lastig. De functies van een data-integratieplatform voor universele datatoegang en -transformatie bieden ondersteuning voor het toevoegen van Hadoop als onderdeel van een end-to-end cyclus voor analyse en dataverwerking. Dit helpt de kloof tussen Hadoop en uw bestaande IT-investering te overbruggen.
Een platformaanpak voor data-integratie kan voordelig zijn voor uiteenlopende Hadoop-projecten, waaronder de projecten die metadatabeheer, gemengde workloads, resourceoptimalisatie en interoperabiliteit vereisen. Een platformaanpak voor data-integratie kan u helpen volledig te profiteren van de dataverwerkingskracht van Hadoop en de bewezen functies van een open, neutraal en volledig platform voor data-integratie in te zetten.
Informatica voor Hadoop
Informatica is de enige die u kan helpen meer uit uw Hadoop-investeringen te halen en bestaande data-integratie- en ETL-vaardigheden in te zetten. Het Informatica-platform biedt het volgende:
- Gebruiksgemak en betrouwbaarheid bij de vóór- en naverwerking van data in en uit Hadoop
- Betere productiviteit voor het extraheren van waardevollere informatie uit ongestructureerde databronnen (zoals afbeeldingen, tekstbestanden, binary's, industrienormen, enz.)
- Bevordering van op metadata gebaseerde controleerbaarheid
- Stimulatie van governance, vertrouwen en beveiliging voor gescheiden activiteiten met Hadoop-implementaties
- Combinatie van flexibiliteit met grote dataverwerkingskracht
- Beheer van gemengde workloads en gelijktijdigheid met hoge doorvoer