大数据开启了令人兴奋的新时代,这很容易让人相信 Hadoop 可以解决与数据相关的所有问题。尽管广告宣传得天花乱坠,但 Hadoop 实际上很可能会成为另一个数据孤岛,甚至有可能会在短短几年内便离开人们的视野。
Hadoop 是一种功能强大的技术,但它只是大数据技术领域的一个组成部分。Hadoop 专门针对特定的数据类型和工作负载而设计。例如,该技术用于暂存大量原始数据(无论是结构化数据还是非结构化数据)时会非常的经济高效,这些原始数据将会经过提炼和准备以用于分析。另外,如果现有的专有数据库和数据仓库等系统由于未使用的原始数据和抽取-加载-转换处理而消耗过快,Hadoop 可帮助您避免对这些数据库和数据仓库进行昂贵的升级。
然而,除非将 Hadoop 与其余数据管理基础设施相集成,否则它很快便会成为另一个数据孤岛,从而增加企业 IT 环境的复杂性。此集成的一方面是能够将 Hadoop 与其他数据处理和分析系统关联起来。例如,在 Hadoop 中预先处理大量原始数据,这样可以使实施更加经济高效。然后,将生成的数据转到 Hadoop 以外的其他系统,而此系统更加适合处理业务所需的特定类型的分析。
集成的另一方面是技术集成。技术集成更为重要,同时也更加困难。尽管手工编码方法非常耗时、成本高昂,并且下游维护困难,但在早期的大多数 Hadoop 部署中,企业常使用这种方法进行数据处理。究其原因,是在于当时没有出现能够利用已有技能集成的 Hadoop 工具。相反,Hadoop 项目要求在 MapReduce、Hive 和 Pig 等语言方面具有专业的编程技能。
Informatica 通过构建在 Informatica Vibe 虚拟数据机 (VDM) 之上的无代码开发环境,可以跨所有系统和平台(无论是 Hadoop 还是非 Hadoop)优化数据处理流程。利用 Vibe,数据集成开发人员能够以图形方式一次性设计数据集成映射,然后将这些映射以虚拟化或非虚拟化的方式部署到传统数据迁移平台中或 Hadoop 上的任何位置。利用 Vibe,开发人员的工作效率可提高 5 倍,并且无需具备 Hadoop 方面的编程知识。有了 Vibe,每一位 Informatica 开发人员现在都可以在 Hadoop 中进行开发。
Vibe 还提供了另一项关键的长期优势。随着大数据生态系统的极速发展,几乎每周都会出现新的分发、语言和技术。人们无法预测在未来几个月内将会出现哪些技术革新,更不用说未来几年。通过“一次开发,多次部署”功能,Vibe 使您无需担忧基础 Hadoop 和其他大数据技术的不断变更。无论您何时选择部署新技术,Vibe 都将为您提供重复使用逻辑的能力,而无需重新编码。
Informatica PowerCenter Big Data Edition 以 Informatica Vibe 为后盾,为您提供了在 Hadoop 上成功构建和部署数据集成所需的全部功能。就在当下,利用 Vibe,无论大数据在未来发展到什么程度,您都可以应对自如。