依靠 CDC 获得实时数据

David Lyle

如果您正试图从数据中提取价值,切记对实时来说,大数据仍然太慢而且非结构化。

在业务和技术世界中,几乎所有的事情都会引起争论。但有一样是明确而无可辩驳的:聪明的企业基于数据做出决策。数据量在规模和复杂度上增长的同时,处理这些数据的需求也在增长。因而您如何确保决策者拥有它们所需要的实时数据?

遗憾的是,许多传统的提取、转换和加载(ETL)工具在提供实时更新时捉襟见肘。整批数据的存储、更新和移动是一项挑战。这个问题在遇到通常缺乏数据创建和变更日期的遗留应用系统时变得更加复杂。

变更数据捕获

解决方案是变更数据捕获(CDC),它是一中基于企业数据源变更的识别、捕获和交付的数据集成方法。CDC 也被称为基于事件的数据集成,它并不是新事物。但它的有效性在于它只标记那些被插入、更新或删除的数据。因此,相对较小的数据子集可以更快地按需在系统中移动。

CDC 的优势包括:

  • IT 部门对业务需求更好的响应
  • 业务部门灵敏性的改进
  • 通过更少的资源使用得到更低 IT 成本

CDC 也有利于垂直行业,如依靠实时信息并定期运行大批作业的金融机构、制造企业以及医疗保险公司。如果变更被 CDC 标记,查询只会针对那些变更过的数据操作,而非整批。否则,查询的数据量将阻止实时的报告。

CDC 并非大数据的最佳选择

CDC 在某些方面让人眼前一亮,同样在有些情况下,会因为数据太过繁琐而不能捕捉。许多人指出,大数据就是未被开发的资源,一旦有流程和技术加以利用,大数据就会变得非常珍贵。但是大数据主要包括来自移动设备、社交网络、日志文件、机器和网页应用的非结构化或半结构化的数据集。

CDC 在数据不可预测和变化不可见时失去了效率。与此形成鲜明对比的是存在于数据库和数据仓库中的结构化数据。结构化数据的好处是它就是那样——结构化好了。结果,他的变更很容易被 CDC 检测到。没有结构化数据,开发人员需要使用 "tail" 和命名的管道文件,只让变更流动,以实现大数据高效处理。

进一步探讨 IT 部门和开发人员如何利用 CDC 以交付精确到分钟的数据,请参阅白皮书 “变更数据捕获:以事件驱动型数据驱动结果。”

文章资源

  • 1 Lane, Adrian,"What Data Discovery Tools Really Do”(《数据探查工具的真正作用》),Dark Reading,2010 年 1 月 20 日。
CDC 有效是因为它只标记那些被变更或更新的数据。因此,较小批量的数据可以更快地在系统中按需移动。"