企业中的 Hadoop
正如 Hadoop 资深专家 Tom White 在其著作 Hadoop 权威指南中所述,“好消息就是大数据 已经出现。 坏消息就是我们正为存储和分析大数据而头疼。”借助 Hadoop,组织逐渐发现新的数据分析方法并将其付诸实践,挖掘原本由于性能、成本和技术原因而不切实际的技巧。 因此,Hadoop 逐渐成为处理、存储和分析大量半结构化、非结构化或原始数据的最热门方案。
但是,您到底是如何及何时利用 Hadoop 的呢?
Hadoop 的主要优势就是在利用商用硬件方面的成熟、经济有效的可扩展性。 它为结构化、半结构化和非结构化等所有数据类型的处理提供支持,而 Hadoop 开放的可扩展性可帮助开发人员为其增加专业功能,以便适应广泛的应用。
很多组织开始将 Hadoop 视为自身环境的延伸,用以应对大型数据的数量、速度及种类挑战。 因此,Hadoop 的采用率会增加,最近针对大规模数据用户的一项调查显示,超过半数的受访者表示会在其环境中考虑使用 Hadoop。
数据集成与 Hadoop
Hadoop 不会取代现有系统。 Hadoop 反而通过对大量数据的额外处理加强现有系统,以便现有系统重点处理其最擅长的工作。 对于希望将 Hadoop 与多个系统的数据相结合的组织,数据集成起着关键作用,能够实现原本不可能的突破性业务洞察力。 Informatica 平台可帮助各个组织在混合型环境中利用 Hadoop,以便利用每种技术的独特优势,并将整体环境的性能最大化。
使用针对 Hadoop 的数据集成平台
像任何新兴技术一样,Hadoop 并非没有遇到挑战。 全面、开放、统一的数据集成平台能够提供以下功能,从而帮助组织应对这些挑战并充分利用 Hadoop:
-
统一数据访问 – 使用 Hadoop 存储和处理各种数据来源的组织往往面临整合及处理所有相关数据的挑战。 数据集成平台帮助各家组织轻松可靠地对进出 Hadoop 的数据进行预处理和后处理。
-
数据解析和交换 - Hadoop 具备存储各种数据的出色功能,但要提取所有相关数据类型的数据含义并使其有意义是一项重大挑战。 数据集成平台帮助提高生产率,从图像、文本、二进制文件和行业标准等非结构化数据源中提取更大价值。
-
管理元数据。Hadoop 缺乏元数据管理和数据可审计性,这样的话,项目的结果值得怀疑,而且可能存在不一致和可见性差的问题。 数据集成平台通过数据沿袭和可审计性,提供齐全的元数据管理功能,并促进标准化。
-
数据质量和数据治理。 虽然 Hadoop 中的部分数据用于存储或实验任务,这些任务无需高水平的数据质量,但是很多组织会使用 Hadoop 进行最终用户报告和分析。 它们发现基本数据令人难以信任。 数据集成平台提供探查、清洗和管理数据的多种功能,从而理解数据的意义,提高可信性,并高效安全地管理数据增长。
-
混合型工作负载管理。 根据用户服务级别协议,Hadoop 不能 (SLA) 管理混合型工作负载。 数据集成平台能够集成来自 Hadoop 和其他事务源的数据集,从而随着事件的发展实现实时的商业智能和分析。
-
资源优化和重复使用。 组织需要查找和招募 Hadoop 资源,并创建框架以重复使用数据集成任务并将其标准化。 数据集成平台促进 IT 资源在多个项目的重复使用,并提高人员招聘和培训的投资回报,同时确保受生态系统支持的资源的可用性。
-
与体系架构中其他部分的可互操作性。 将 Hadoop 合理化并将其融入扩展环境中是充满挑战的一项任务。 数据集成平台的统一数据访问和转换功能支持将 Hadoop 添加到端对端分析和数据处理循环,帮助消除 Hadoop 与现有 IT 投资之间的差距。
各种 Hadoop 项目(包括需要元数据管理、混合型工作负载、资源优化和可互操作性的项目)可以从平台型数据集成方法中受益。 平台型数据集成方法可以帮助您充分利用 Hadoop 的数据处理功能,以及利用开放、中立和完整的数据集成平台的成熟功能。
Informatica Hadoop
Informatica 经过独特定位,可帮助您更充分地利用 Hadoop 投资,并利用现有数据集成和 ETL 技能集。 借助 Informatica 平台,您可以:
- 轻松可靠地对进出 Hadoop 的数据进行预处理和后处理
- 提高生产率,从图像、文本、二进制文件和行业标准等非结构化数据源中获得更大价值。
- 提高元数据驱动的可审计性
- 通过 Hadoop 部署促进孤立活动的治理、可信性和安全性
- 将灵活性与高度的数据处理能力相结合
- 管理混合型工作负载和高吞吐量的并发活动