日本のビックデータ活用における課題とは
■日本のビッグデータを取り巻く課題
昨今、ビッグデータを利用する機会が増えたことで、多くの人がその利用価値の高さに注目しています。
AIやIoT、BIの活用においては、今まで阻害していたシステム的かつコスト的な制限(ストレージコストやクラウドによるHWコストの削減)を超える事ができたおかげで、ビッグデータが企業のビジネスモデルの開拓・改善に対して、新しい価値やより詳細な分析機能を提供できるようになってきました。
最近では、IT系以外の雑誌やメディア、TVにおいても、ビッグデータを使ったクラウド事例や活用例が報道されるくらい、一般人にも身近になってきており、その活用の機運が一般ビジネス領域でも高まってきています。 しかし、バラ色の未来の前には、乗り越えるべき課題があるのもまた事実です。
例えば、以下は私が過去にお客様からご相談を受けた内容の一つです。
・ビッグデータを格納するインフラは作成した。しかし、データ量や種類が多すぎて、有効なデータを見つけられない。
・業務ユーザーやデータサイエンティストに自由に活用してもらいたいが、活用できるスキルやツールを持っている人が限られているので、十分に活用されているとは言えない。
・RAWデータ(各アプリケーションからの生データ)を格納したいが、秘匿情報や個人情報が含まれていないか、セキュリティを担保できるか自信がない。
・結局IT部門が介在しないと運用が回らないため、旧来のウォーターフォール型の開発運用体制を取らざるを得ず、ビジネスのスピードについて行けない。
上記はあくまで一例にすぎませんが、総じて「データの有効活用」に関する課題を多く聞きます。
■なぜビッグデータは活用が困難なのか?
ここからは、原因について深掘りしたいと思います。
原因として考えられるのは、データ活用にまつわる「品質」と「スキル」の問題です。 データ品質が悪ければ、分析結果も不正となり、結果的にビジネスの判断を見誤ってしまいます。
さらに品質の問題をさらに深掘りをすると、2つの課題が考えられます。
①そもそも使っているデータが適切でない
企業内には大小様々なシステムやデータベースが存在し、ファイルサーバやクラウドにも様々なデータが存在しますが、活用時の課題として「分析者の作業の8割はデータを探す事」だと言われています。 また現場のユーザーからは、断片的な情報から特定のデータを探したい、ビジネス名称や特定ツール、意味合いから探したい、参画企業別などデータの供給元から探したい、複合的な条件で絞り込みたい、あるデータに関連する別のデータを探したいなどなど、ユーザーのアイデアを妨げない様々な角度でのデータ検索・探索手段が求められます。
②使っているデータに誤差やゴミデータがある
発見したデータがそのまま分析レポートやAIなどで活用できる事はほとんどありません。複数のデータセットを組み合わせる結合処理、表記の揺れの統一や重複排除、粒度の標準化などのクレンジングと言った分析の前処理としてのデータの編集、加工、整形が必要となります。 ただ、それらの作業を業務ユーザーが実施するのは難しいため、誰がどのタイミングで実施するかが問題となります。
昨今のセルフサービス型のBIツールにより分析自体が簡単にできるようになり、業務ユーザーやデータサイエンティストが直接、ビッグデータを活用したいと言うニーズが高まってきました。 しかしながら、専門的な組織内で訓練されたデータサイエンティストで無ければ、すぐに多岐にわたるビッグデータの活用ができません。
また、大部分の業務ユーザーは、IT部門からの手厚い支援が必要ですが、それは同時に分析スピードが低下する課題があります。それらが結果的に「使われないビッグデータ」を産んでしまいます。 そのため、業務ユーザーでも利用できる直感的なインターフェイスのツールから、複雑なデータ処理が実施・活用できることが求められます。
■先進企業におけるビッグデータ活用
先行する企業ではこれらの課題を乗り越えるために、「ビッグデータ活用の民主化」へ舵を切っています。 具体的には、ユーザーがセルフサービスでビッグデータを活用できる環境を整備しています。 そこで重要なのは、「本当にユーザーがセルフサービスで使える事」を実現することです。
その解決策がデータカタログとデータプレパレーションです。
・データカタログ
Google検索のようなWebインターフェイスのツールから、社内のシステムのメタデータを横串検索ができます。 システム情報や各種データ情報、属人的なデータ活用のノウハウ情報をAI機能を活用して、簡単に取り出す事ができ、ビッグデータ分析を高度化させる事ができます。 データカタログの詳細については、こちらをご覧ください。
・データプレパレーション
ExcelチックなWebインターフェイスのツールから、データレイクやデータマート、クラウドのビッグデータを直接、編集・加工できます。 今までSQLによる操作やプログラミングツール、ETLツールに依存していたビッグデータ操作をAI機能を使って、より簡単に実現できます。 データプレパレーションの詳細については、こちらをご覧ください。
この二つに共通していることは、特にユーザーインターフェイス(Web UI)において直感的に操作できるようにデザインされており、ITリテラシーに関係なく活用が出来るという点です。 増え続けるビッグデータの課題を、データカタログやデータプレパレーションで解決してみませんか。