【パートナーブログ:Snowflake】Snowflakeのデータクラウドで実現するデータ主導モダナイゼーション
はじめに
今日において、企業の成功には、データを利活用がカギとなります。事業活動において多種多様なデータを元に新たなインサイトを得て、さらに次の事業に活かそうとする流れは、国内企業においても同様です。しかしながら、データ生成や活用の可能性が十分に引き出されるには至っていません。
私たちSnowflakeは、データ利活用を推進するために不可欠なクラウド時代におけるデータプラットフォームである”データクラウド”の提供を通して、お客様のビジネス実現を支援しています。データクラウドでは、サイロ化されたデータの統合、データの発見と安全な共有、多様な分析ワークロードの実行を実現することができます。既に国内外で4,900社を超えるユーザーの利用実績があり、データやユーザーがどこに存在するかに関係なく、複数のクラウドと地域にまたがり単一のデータ体験を実現しています。
本ブログを通して、
- Snowflakeの提供するデータクラウドと、そのプラットフォームの特徴について
- 統合データプラットフォームとデータクラウドとの親和性
について、ご理解を深めていただく機会になりましたら幸いです。
データが最も大切な資源である
まず最初にデータを取り巻く流れ振り返りたいと思います。”ビッグデータ”という言葉が多用されるようになったのは2013年頃のことでした。多方面でこの言葉が溢れ、さまざまなメディアでデータの重要性が叫ばれるようになりました。
しかし、世の中でそのデータの重要性を理解されるまでは、まだまだ時間やリソース、技術が必要でした。
ビッグデータのもつ標準的な特性として「3つのV」が挙げられます。
これは2000年代にデータ分析者によって提示されたとの事で、ビッグデータ元年と言われる2013年ほどからより注目視され、現在でも標準的な考え方となっています。
これらの「3つのV」に加え、「4つめのV」、「5つめのV」とも取り上げられることが多く見受けられます。
このように、今日では多種多様なデータを大量に扱ってデータ分析をするということは当たり前になってきました。そして、データが経営上の重要な資産であるという認識も一般化しました。
それに伴い、データ生成や活用の可能性をさらに高めるデータプラットフォームが強く求められているのではないでしょうか。
新たな時代のプラットフォーム:Snowflakeデータクラウド
私たちSnowflakeのビジョンは、「お客様が1か所にまとめられたすべてのデータにアクセスできるようすることで、いつでも、どこでも、何人のユーザーがアクセスして実行可能な意思決定を行えるようなる」ということです。
クラウドテクノロジをベースに構築された超高速でスケーラブルなプラットフォームである“データクラウド”を通して、Snowflakeは先述の課題データ分析の課題にアプローチしていきます。
ここから先は、Snowflakeのデータクラウドを支える特徴的なテクノロジーについて、少しご紹介させていただきます。
■特徴的なアーキテクチャ
Snowflakeの最も特徴的な点は、ストレージとコンピュートを完全に分離していることです。
ストレージを囲む形で配置されているギアのマークは、ウェアハウスと言うコンピュートリソースです。ストレージとコンピュートをさらに囲む形で、クラウドサービスです。
さらにクラウドサービスとしてオプティマイゼーションからデータシェアリングまで、マネージドサービスに必要な6つの機能を提供しています。
基盤としては、メジャークラウドであるGCP、AWS、Azureのようなマルチクラウド対応となっています。この部分は、ユーザーに意識させることなく管理されています。
■従来のデータ分析基盤の課題
これまでのデータ分析基盤では、下記のような課題を感じる場面も多かったかと思います。
・ロードの性能がスケールしない
・レポートやBIなどのアウトプットの同時実行にボトルネック
・初期コストが高く、運用も大変
しかし、上記の図にある通り、Snowflakeでは全く異なります。
中心にストレージがあり、鍵のマークがついています。デフォルトで暗号化がなされており、圧縮して格納されます。
ストレージを囲む形で、ギアのマークがいくつも存在しています。コンピュートリソースの塊、ウェアハウスと呼びます。
ウェアハウスの中の文字は、Tシャツのサイズのようなもの。つまりウェアハウス、コンピュートリソースの大きさを意味します。
ETLと書いている箇所ですが、一般的なETLツールで繋いでいただいても結構ですし、我々のツールとしてSnowpipeという継続的データローダーもあり、ニアリアルタイムで取り込めます。
BIツール、JDBC・ODBCで接続し、クエリをかける。データサイエンスツールを接続も同様に可能です。
■性能面の特徴
スケールアクロス、スケールアップ、スケールアウトなど他社のIaaS、PaaSなどと大きく異なり、すぐに性能をチューニングできます。
ギアが幾つか配置されていますが、これはリソースの競合がなく動かせるということを模擬しています。
つまり、ETLを動かしながらBIを実行するといった、同時に動かしても競合せずストレスなくスムーズに動きます。これをスケールアクロスと言います。 ストレージとコンピュートが分離できているからこそ実現できるSnowflakeの大きな特徴です。
ETLの箇所に注目してください。
例えば、夜間にデータを取り込んでいる場合、急にデータが増えたからといって、実行時間の長さを変えるのは難しいですよね。
このような場合、例えばXSとなっているサイズからMサイズにスケールアップを即座にしていただくことで対応が可能になります。
Salesの部分に注目してみてください。BIツールが接続されています。 BIの課題は、月曜のAMや月初など、同時実行が集中しレスポンスが遅くなることが挙げられます。
このような場合でも、ウェアハウスクラスタを横に増やしてスケールアウトすることができます。スライドのギアを横に3つスケールアウトするイメージです。
もちろん、同時実行が減ったら処理を減らすことも可能です。マニュアルでも自動でもスケールアウト、スケールインが可能なのです。
■運用管理
Snowflakeでの運用管理についても少し触れたいと思います。
1つ目は、最大90日の任意の時点のデータに遡れるタイムトラベルです。タイムトラベルによって、従来時間をかけていたバックアップ&リストアを短時間で行えます。
そして、マネージドサービスと言いましたが、1つは、オートマティッククラスタリングです。
データの配置。従来だと分散キーとかソートキーとか、DBAが設計して選んで、構築する。メンテナンスして再分散が必要でした。
しかしSnowflakeの環境では、ここ点をお客様が悩む必要がありません。マイクロパーティションで全て管理されるのです。
2つ目はクローンです。本番環境のデータ使って即座にテスト環境や開発環境を作れます。
クローンを実行したところでデータが2倍になると思われますが、Snowflakeはそうではありません。我々はゼロコピークローンと呼んでいます。
クローンしたタイミングではデータは増えず、更新(黄色の箇所)が発生したタイミングで増えます。格納効率にも非常に優れています。
そして3つ目が半構造化データへの対応です。昨今、構造化以外の分析したいニーズが挙がっています。 ここではログアナリシスと記載しています。
JSON、XML、ORC、Avro、Parquet、こういったデータが、専用の格納形式に貯めることができます。
レプリケーション、フェイルオーバー、フェイルバックと書いています。Snowflakeは、マルチクラウド対応なので、クラウドやリージョンを跨いで、クロスクラウド、クロスリージョンでデータのレプリケーション、フェイルオーバー、フェイルバックを簡単に設定していただけるのが優れた点です。非常に大切なデータのDR/ディザスタリカバリが簡単に実現できます。
■セキュアデータシェアリング
安全に自社のデータを、物理コピー作らずにデータを共有できます。ユースケースとしては、グループ企業、部門間で共有・交換しビジネスを加速化させていくといった例が挙げられます。この機能を発展させることで、Publicにデータを共有する、取り込む、ビジネスを加速させる事ができます。データマーケットプレイスも提供しておりデータをビジネス資産として社外と取引する事が可能です。
■6つのワークロード
Snowflake は、DWHから始まって、Data Engineering、Data Lake、BIツールに代表されるData Application、Data Sharing、Data Science、こういったデータ活用のワークロードをサポートしています。ぜひSnowflakeの真価を無料トライアル< https://signup.snowflake.com/ >で試してみてください。
<統合データプラットフォームとデータクラウドとの親和性>
BIツールやデータサイエンスツールの新たな仕組の登場が1つのきっかけとなり、ビジネスユーザがデータを身近に処理できる環境が整いつつあります。
しかしながら、ツールが進化してもデータ活用は最初の4つ・5つのVにあったように、分析の事前準備と最適な環境が必要です。
ある調査によれば、「データ分析者は80%以上の時間をデータ準備に費やしている」という報告がなされており、データ準備の生産性向上が新たな課題として認識され始めています。
5つのVというビッグデータの課題に対して最適なデータクラウドとしてSnowflakeがあります。
一方で、エンタープライズ規模の分析環境として使用する際には、データマネジメント全般においてこのような課題が挙げられるのではないでしょうか。
・データの発見
・その意味や信頼性
・品質に関する理解
・複雑なデータソースとSnowflakeとの迅速な統合
・データ品質の参照に加えて、名寄せなどを含む品質改善、運用監視
・誰が何の目的でどの業務でどのデータを使っているか、各自のデータの使用状況を把握するビジネスレベルのデータガバナンス
・マスキングや個人情報保護法、GDPRなどの法規制に対応するデータセキュリティ
幅広くデータを扱う上での統合的な基盤として課題解決する必要があります。
これらの課題を克服するソリューションとしては、
Data Catalog、Data Integrationに相当するIICS(Informatica Intelligent Cloud Services)(※1)またそれ以外に、Data Quality、Data Governance、Data Protection and Privacyなどのソリューションもあります。
インフォマティカは、エンタープライズ規模でSnowflakeを活用する上で共存できるパートナーとも言えるのではないかと思います。
みなさまも、データ分析やデータサイエンスというデータ利活用の構築の前に、まずはデータ統合基盤としてSnowflakeデータクラウドとインフォマティカの基盤を考慮されてはいかがでしょうか?
(※1):「IICS」は、AIを活用した包括的なエンドツーエンドのデータマネジメントプラットフォームを提供するクラウドサービスである「IDMC (Intelligent Data Management Cloud) 」の一部として利用可能なクラウド・ネイティブ・サービスを具現化した製品です。
【問い合わせ先】
Snowflake株式会社 マーケティング事務局
WEBページ:https://www.snowflake.com/?lang=ja