本当に必要なデータカタログの機能とは?エンタープライズ・ビジネス・インテリジェンスに不可欠なデータカタログの機能

最終公開日 : Nov 24, 2022 |
インフォマティカ編集部
インフォマティカ編集部

データ環境が急速に拡大し、変化していく中で、データカタログの特定の必須機能や性能は、メタデータ管理のために極めて重要な基盤を提供します。現代の新たな戦場は、今日のデータレイクやウェアハウスに蓄積されたビッグデータからビジネスインテリジェンスを掘り起こし、競争上の優位性を獲得することです。しかし、多くの組織がデータドリブンを目指すと公言しているにもかかわらず、その努力を怠っているように見えます1

経営者を対象とした最近の調査では2、データ駆動型の組織や文化を持っていると回答したのはわずか26.5%でした。組織は、データ資産を、成長と利益のためのデータ主導の意思決定を促進するデータインテリジェンスに変える必要があります。
データ主導のデジタル変革のための最初のステップはいったい何でしょうか。それは、データ消費者と必要なビジネスインテリジェンスを結びつけることで、データを信頼できる形で管理・共有することです。

言い換えれば、ビッグデータの棚卸しを行い、その価値を評価することです。そして、組織全体のデータ活用を民主化し、自動化することによってデータの生産者と消費者をより効率的につなげ、その価値を最大化するのです。

 

最新のクラウドデータカタログの機能と性能で、組織の課題を解決する

今日の組織では、データ活用の民主化が困難な状況にあります。さまざまな部門のサイロやアプリケーションに分散しているデータは、アクセスすることはおろか、見つけることも簡単ではありません。また、見つけにくく、理解しにくく、信頼しにくいデータでは、データ分析を推進し、信頼性の高いビジネス成果を得ることはできません。

データの中には、構内に存在するものもあれば、クラウドデータウェアハウスやデータレイクに存在するものもあります。データの出所や所有者が分からない、あるいは信頼できるかどうかも分からないという状況では、成長、イノベーション、効率化などを推進する価値創造イニシアティブを支援するためのデータが何であるかを把握することは困難です。

また、データサプライチェーンにおけるデータの動きを可視化できないことも、問題を複雑にしています。データソース、種類、フォーマットの増加に伴い、データの状況はさらに複雑になっています。データリネージとインパクト分析という最新のクラウドデータカタログの機能を取り入れることの重要性は、いくら強調してもし過ぎることはありません。データカタログとデータリネージを効果的に活用しない場合に発生しうる以下の課題について考えてみましょう。

 

  1. 可視性の制限:データが分散しているため、自動データカタログを作成しない限り、組織として全体を把握することは事実上不可能です。サイロ化されたデータでは、ビジネス活動の断片的な情報しか得られない傾向があります。その結果、データ内に隠された貴重なビジネス上の洞察を見逃すことになります。
  2. データの完全性に影響する:データサイロはデータの断片化を生み、その結果、データ品質の保証が低くなります。そして、そのようなデータの弱点は、信頼性の低い結果による信頼性の低下、さらにはコストのかかる損害の原因となります。カナダの電力会社TransAlta社のケースを考えてみましょう。同社はデータの保存、分析、移動にスプレッドシートを使用していた際に、単純なカット&ペーストのミスにより、2400万ドルの損失を被りました。
  3. データ流出のリスク:セルフサービスの分析環境は、誤ってデータを流出させるリスクが高い場合があります。このような事態は、企業の信頼性の低下を意味します。連邦預金保険公社(FDIC)に起こった出来事をご紹介しましょう。同社では、従業員が誤ってFDICの顧客44,000人分のデータを個人のストレージデバイスにダウンロードし、大規模なサイバー侵害が発生したのです。データマーケットプレイスに接続されたデータカタログとリネージソリューションは、適切なデータ利用をより詳細に制御することができます。
  4. コストの増加:データには金銭的なコストやデータの保存に関連するインフラコストが発生します。データを移動する場合は、移動コストが発生しますし、データを収集し利用するにも、時間と労力がかかります。ですから、データの冗長性、メンテナンス、重複がいかに多くのリソースを要求するかを検討することが賢明です。
  5. データパイプラインの検証が必要:つまり、承認されたすべてのデータ資産が、承認されたデータソースからのものであることを確認する必要があります。また、データパイプラインが未承認のデータを転送していないことを確認する必要があります。データレジデンシーポリシー、プライバシー法などの地域的な義務など、機密データや個人データの資産の起源(出所)とデータ系統を知る必要性が高まっています。
  6. コラボレーションの妨げになる:データのサイロは、組織の分離から形成されたサイロから生まれます。そして、分離の各層の上に構築すると、部族の境界と技術的な非互換性の両方が生まれます。ビジネスインテリジェンスを向上させる有意義なコラボレーションは、データの生産者と消費者を切り離すと、困難なものとなります。

では、これらの問題にはどのように対処すればよいのでしょうか。

 

組織のデータのための単一の真実のソースを構築する

データカタログは、上記のようなデータに関するすべての課題とそれ以上に対処するのに役立ちます。データカタログツールは、自動化によってデータ資産のインベントリーを作成し、維持することを可能にします。また、データセットの発見、メタデータのタグ付け、インベントリ作成、整理を行うことで、これを実現し、ビジネスと技術の両方のコンテキストを可能にします。データカタログは、ビジネス用語集と連動して、データのコンテキストをさらに定義するのに役立つのです。

コンテキストは、データエンジニアやデータスチュワードなどのデータ利用者が、関連するデータセットを見つけて理解する際に効果的です。また、データインテリジェンスを価値創造活動に活用するビジネスチームにとっても有効です。

データカタログは、技術的なメタデータなどの詳細を、シンプルで消費しやすい形式に整理したものです。これにより、ビジネスユーザーや意思決定者は、多くのデータ辞書にまたがる情報を総合的に判断することができます。ビジネスユーザーは、クリーンで高品質なデータを信頼し、アプリケーションからアクセスすることができます。

データインテリジェンスが、信頼できるデータからどのように価値創造の機会を引き出し、より良いビジネス成果を生み出すかを学びましょう。

データは世界で最も価値のあるリソースかもしれませんが、重要なのは生データをどう扱うかです。成功するデータ駆動型企業は、まず生のデータを発見し、それをカタログ化することが重要であることを知っています。次のステップは、データをキュレートして充実させ、目的に合っていることを確認することです。そして最後に、データ共有ツールによって、ナレッジワーカーにデータを民主化することです。

 

インテリジェントなデータカタログ機能でデータの信頼性を高める

AIを搭載したデータカタログ機能により、データインテリジェンスの取得、キュレーション、活性化を支援します。

 

データカタログをどのように評価すべきか?

最新のクラウドデータカタログソリューションの評価に着手する前に、何をしたいのかを決定する必要があります。
データカタログの機能と性能は、価値を創造する機会を促進するためのオプションを提供します。データカタログは、データインテリジェンスの加速を自動化し、組織内のデータ共有を民主化することができますが、データが意思決定者にとって意味のあるものになるには、データをコンテキストで豊かにする必要があります。

コンテキストは、人々や優れたメタデータ管理から得られる洞察によってもたらされるものです。信頼できるデータをそのコンテキストに接続し、データの生産者と消費者の間で共有することが重要です。これは、データによる意思決定が正しいか間違っているかの違いになり得ます。例えば、帝国単位とメートル法を使い分け、間違った単位定義で棚を吊るすことは、大きな問題ではないように思えるかもしれません。しかし、NASAにとっては残念なことに、この理解のギャップが1999年に1億2,500万ドルの損失を生んだのです。

組織は、より多くの情報に基づいた意思決定のために、より優れたビジネス・インテリジェンスによって競争上の優位性を得たいと考えています。また、日常的な作業や非日常的な作業を自動化することも求められています。人工知能(AI)と機械学習(ML)モデルを採用することで、クラウドのパワーを活用することができます。

 

最新のクラウドデータカタログに必要な5つの機能

以下の5つの機能は、企業データを最大限に活用するために役立ちます。

  1. 自動化されたデータ・インテリジェンス:メタデータ主導の洞察を含むプロセスを自動化することで、答えを探す際に貴重な時間とリソースを消費する手作業を回避できます。自動化されたテクノロジーは、データの使用法とクエリーを活用して、ビジネスコンテキストをデータ資産に大規模にリンクまたは割り当てます。
  2. データの民主的な接続性:データインテリジェンスとデータ消費者へのデータ配信をリンクさせるアクセス可能なデータカタログにより、データの透明性を高め、技術者でないユーザーでもデータの検索、アクセス、利用ができるようになります。データの生産者と消費者をつなぐことで、不必要なリスク露出を最小限に抑えながら、信頼できるデータを提供し、企業全体でより迅速で信頼性の高いコラボレーションを実現します。
  3. データディスカバリーとデータリネージアナリシス:最新のデータカタログの重要な2つの柱であるこの2つの柱は、未知のデータソースを発見し、データの動きを追跡してその影響を理解することにより、ビッグデータからビジネスインテリジェンスを引き出すために使用するデータの信頼性と信用を構築します。
  4. データガバナンスデータスチュワードシップを自動化する包括的な機能により、データの目的に沿ってビジネスユーザーと技術ユーザーが連携し、ユーザーが利用できる信頼性の高いデータを確保することができます。自動化されたガバナンスは、データ品質の向上と適切なデータ露出の管理を支援します。適格なデータ消費者のみが、関連するデータセットにアクセスし、使用できるようにする必要があります。
  5. メタデータのキュレーション:マルチクラウド環境を採用する組織は、""アプローチで複数のデータベースに接続する必要があります。また、その成功は、包括的な可視化とデータアクセスにかかっています。

レガシーインフラだけでなく、オンプレミスやクラウドといった最新の環境にも接続し、そこからメタデータを抽出できるデータカタログが必要です。これには、データウェアハウスやデータレイク、ETL、BIツールなどが含まれます。

 

インテリジェントなデータカタログ機能でデータを最大限に活用する

最新のクラウドデータカタログは、ビッグデータの検索、準備、理解、信頼を支援します。機械学習ベースの検出エンジンが、クラウドデータストア、BIツール、ETL、サードパーティのデータ資産などをスキャンします。そして、自動化されたドメインの発見と推奨により、データのキュレーションと準備を行うことができます。ビジネスユーザーとITユーザーは、関連するデータを簡単に発見、理解、信頼、アクセスし、データ駆動型のインサイトを適用することができます。インテリジェント・データ・カタログの機能は以下のとおりです。

  • セマンティック検索
  • エンドツーエンドのデータリネージ
  • ドメインディスカバリー
  • 統合されたデータ品質

データカタログツールは、Informatica Intelligent Data Management Cloud™と統合し、クラウドデータウェアハウス、データレイク、レイクハウスなどのマルチクラウド環境において、重要な機能を提供します。

 

インフォマティカがどのように組織の実現を支援してきたか、ご覧ください。

  • セルフサービス分析:世界第 3 位の保険会社である Generali は、データに関して 2 つの目標を掲げていました。1 つ目の目標は、データの整理とインベントリー化でした。データカタログを構築することで、従業員はデータ資産の発見とインベントリーを自動化することができました。2 つ目の目標は、データ駆動型の分析能力を強化するために、アクセスを民主化し、改善することでした。Informatica のデータガバナンスは、データ品質の向上と、信頼できるデータへのより良いアクセスに役立っています。
  • データガバナンスL.A. Care Health Plan は、米国最大の公営ヘルスプランの 1 つです。同社は Informatica と連携し、いくつかの重要な方法でデータガバナンスの成熟度を高めています。現在では、組織全体でデータのセマンティクスを一貫して維持することができます。また、全社的な定義と用語に合意することができました。また、レポートや分析に使用するデータに関するビジネスコンテキストを開発することができました。
  • クラウドの近代化ある大手放送局では、公共放送を近代化しました。この企業は、顧客インサイトを活用して、ロイヤルティを築き、視聴者の満足度を向上させました。Informatica のデータカタログは、顧客データの検索、理解、信頼、再利用を容易にすることで、顧客データの価値を向上させるのに役立ちました。
  • ビジネスを 360 度見渡す AIA シンガポールは、データガバナンスの旅で新しい段階を開始したいと考えていました。彼らはまず、ビジネス用語、データの系統、ソースにおけるデータの品質について理解を深めることから始めました。そして、データガバナンスをカタログ化およびデータ品質と統合し、完全なソリューションを構築しました。

現代の組織は、多くのソース(ERP、CRM、ストリーミングデバイスなど)から膨大な量のデータを収集しています。質の異なるデータをリアルタイムで管理・生成することは、かつてないほど困難になっています。サイロ化された部門別のデータカタログは役立ちますが、インテリジェントで拡張性の高いエンタープライズクラスのデータカタログを使用すると、横断的にデータを発見、理解、信頼することができます。

  • モダナイゼーションにおけるクラウドとオンプレミスのプラットフォーム
  • 最も広範なデータエコシステムとデータソース
  • データ利用者が必要とする多様な分野でのビジネスユースケース

データカタログツールを使用して予測的データインテリジェンスを実現すれば、組織の生産性は向上します。また、数千万件のレコードのスキャン、数百のデータソースのインベントリ作成、数千のビジネス用語の照合など、手作業に比べ時間を節約することができます。また、インテリジェントデータカタログを使用することで、エンドツーエンドのデータ系統を迅速に可視化することができます。

1IDC Infographic, sponsored by Informatica, “Delivering Data Value by Activating Data Intelligence,” (Doc# US49588722, September 2022)

2https://hbr.org/2022/02/why-becoming-a-data-driven-organization-is-so-hard

First Published: Nov 22, 2022