Сбор измененных данных в режиме реального времени

David Lyle

Большие Данные все еще слишком тяжелы и медленно обрабатываются в режиме реального времени

В мире бизнеса и технологий нет постоянства. Но кое-что оспорить трудно: технологичные организации принимают решения на основе данных. По мере роста объемов и сложности данных также растет и потребность в обработке этих данных. Каким образом для принятия решения вы используете данные в режиме реального времени?

К сожалению, многие традиционные инструменты для извлечения, преобразования и загрузки данных (ETL) не справляются с нагрузкой при необходимости предоставлять обновления в режиме реального времени. Они могут вызвать помехи, если требуется организовать, обновить или переместить целые пакеты данных. Проблема усложняется также наличием установленных унаследованных приложений, которые часто не позволяют задавать дату создания и изменения данных.

Сохранение измененных данных

Одним из решений такой проблемы является изменение выделенных данных (CDC) — подход к интеграции данных, основанный на идентификации, сохранении и доставке изменений в источниках данных предприятия. Этот подход, который также называют интеграцией данных на основе событий, не нов. Но он обеспечивает достаточную эффективность благодаря обработке только тех данных, которые были вставлены, обновлены или удалены. В результате, при необходимости, в рамках системы можно быстро перемещать небольшие группы данных.

Изменение выделенных данных предоставляет следующие преимущества:

  • Увеличение скорости реагирования ИТ на потребности бизнеса.
  • Повышение гибкости бизнеса.
  • Сокращение затрат на ИТ, благодаря уменьшению объемов используемых ресурсов.

Выделение измененных данных также предоставляет дополнительные преимущества таким предприятиям, как финансовые учреждения, производственные компании, а также компании медицинского страхования, которые используют данные в режиме реального времени и часто обрабатывают крупные пакеты информации. Если изменения были выделены, запросы применяются только к измененным данным, а не ко всему пакету. В противном случае ухудшаются возможности отчетности в режиме реального времени.

Выделение измененных данных — не лучшее предложение для Больших Данных

Несмотря на то, что в некоторых ситуациях выделение измененных данных демонстрирует наилучшие результаты, существуют условия, при которых данные очень трудно сохранять. Многие считают Большие Данные тем самым нетронутым источником, который станет бесценен после внедрения процессов и технологий для их обработки. Но Большие Данные состоят преимущественно из неструктурированных и полу-структурированных групп данных с мобильных устройств, из социальных сетей, файлов журналов, компьютеров и веб-приложений.

Выделение измененных данных теряет свою эффективность, если данные изменяются непредсказуемо и незаметно, как это происходит с плоскими файлами. Если сравнить их со структурированными данными в базах и хранилищах данных, то можно увидеть, что преимущество структурированных данных заключается именно в их структурированности. В результате выделение измененных данных легко фиксирует изменения. Без структурированных данных разработчикам приходится использовать «хвосты» и именованные канальные файлы для сохранения изменений с целью повышения эффективности обработки Больших Данных.

Чтобы узнать больше о том, как ИТ-подразделения и разработчики могут использовать выделение измененных данных для доставки актуальных данных, ознакомьтесь с брошюрой «Change Data Capture: Driving Results with Event Driven Data» (Выделение измененных данных: достижение результатов с помощью данных на основе событий).

Article Resources

  • 1Лейн, Адриан, What Data Discovery Tools Really Do (Как на самом деле работают инструменты сбора данных), Dark Reading, 20 января 2010 г.
Выделение измененных данных эффективно потому, что выделяет только те данные, которые были изменены или обновлены. В результате при необходимости в рамках системы можно быстро перемещать небольшие группы данных."