非構造化データ活用の課題
昨今、IoT(モノのインターネット)に関する話題が多く挙がります。
ただし、まだ多くの日本企業ではIoTの「エッジ・デバイス(センサー等)」の利用・管理に焦点が当てられ、未だにそれらのデバイスが生み出すデータや情報をどのように活用し、分析モデルを立てるかと言った、「データ活用の取り組み」には至っていないかと考えられます。
では、なぜデータ分析や活用が進まないのでしょうか?
IoTデータの特徴として、それらのデータ形式は非構造化データや半構造化データと呼ばれ、これまでのCSVファイルやリレーションデータベース(RDBMS)とは違った形式となり、その取扱い方法や管理方法も変わってきているからにほかなりません。
そのためには旧来の開発方法やプログラミング手法、技術を変える必要があり、手間と時間が掛かってしまいます。
■データ形式の定義
では、まずは「非構造データとは何か」、という点に改めて着目したいと思います。
ここでは、「構造化データ」「半構造化データ」「非構造化データ」に分けて解説します。
構造化データ
・特徴 : 列と行からなるフォーマットで、コンピュータ黎明期からデータベースやシステム間インターフェイスとして活用
・例 : CSV、RDBMS(リレーションデータベース)、Excel
・注釈 : 人間が理解可能で、管理・分析しやすいフォーマット
半構造化データ
・特徴 : カラム定義、テーブル定義等の明確な構造定義を持たないデータ。IoTやビッグデータ等で多用される
・例 : JSON、XML、Parque、Avro等のデータフォーマット、KVS(Key-Value Store)型DBやドキュメントDB
・注釈 : 半構造化データは、「非構造データ」と一括りにされるケースもあります
非構造化データ
・特徴 : 構造定義そのもの自体を持たない・持てないデータ
・例 : Officeドキュメント、PDF、音声・動画、センサーログ、メール
・注釈 : 専門的なツールを使わないと理解が不可能、分析できない専用のデータを指します。
結論としては、半構造化データと非構造化データは従来とデータ構造が異なり、そのため読み取る手法や技術が違うために、活用・分析には新たなスキルが必要となります。
半構造化データと非構造化データ活用に向けて
上に挙げたようにまずは構造の違いによる読み取り手法の変更の課題があります。
IT開発者目線で考えると、まずは非構造化データを解析し、人間が分析・理解が可能のように変換する事が重要となります。いわゆる「パース(Parse)」「パーサー(Parser)」と呼ばれるデータの分解・変換が必要となります。
インフォマティカでは、Big Data ManagementをはじめとするETL製品群で非構造・半構造のフォーマットに対応したパーサーを提供しています。
次にビッグデータの特徴であるVolume(容量)に対する課題も同時に発生します。具体的には日々大量なデータが発生・蓄積されるために、本当に自分に必要なデータがどこにあるか所在がわからなくなってしまう事があるためです。そこで求められるのは、構造データや非構造データを問わず、どこにどのようなデータがあるかを一元的に把握できるが可能な事です。インフォマティカでは、Enterprise Data Catalogによってデータを俯瞰する事ができるデータカタログを作る事でそれらの課題を解決することが出来ます。
上記のように、非構造データ活用には、使う側やその技術にも変化が求められます。
インフォマティカでは、最先端のデータプラットホームを提供することで、あらゆる変化の対応をご支援していきます。