データ?ウェアハウスの仕组み
有益な情报を抽出するために社内の各部门からデータを収集するロジスティクスは、ビジネスの成长とともに复雑になります。データ?ウェアハウスは、その情报を単一のデータベースおよびデータモデルに集约し、アナリストによるクエリの実行を可能にする信頼性の高い方法を提供します。
仕组みの概要:
- 抽出:贰搁笔、颁搁惭、営业、マーケティング部门など、组织内のさまざまなソースから未加工データをステージング?データベースに集约
- 変换:ステージング?レイヤーのデータを統合レイヤーに転送し、そこでデータを結合してオペレーショナル?データ?ストア(ODS)に変换
- ロード:アナリストが SQL クエリに使用するスキーマを定義することで、データを統合レイヤーからデータ?ウェアハウスに移動した後、リレーショナル?データベースに書き込み(スキーマ?オン?ライト)
データ?ウェアハウスで扱うデータベースはリレーショナル型であるため、データは构造化されており、列と行からなるテーブル形式で格纳されます。これらのテーブルは、书き込み时に定义されたスキーマによって管理されます。
変换のステップがデータ?ウェアハウスの外部にある ODS で処理される場合は、ETL(Extract, Transform, Load:抽出、変换、ロード)と呼ばれます。変换データをデータ?ウェアハウス内部で処理する場合は、ELT (Extract, Load, Transform:抽出、ロード、変换)と呼ばれます。ETL と ELT のどちらを使用する場合でも、データ?ウェアハウスは、構造化データ、スキーマ?オン?ライトでリレーショナル?データベースと連動する必要があります。
データ?ウェアハウスの使用目的
データ?ウェアハウスの一般的なアプリケーション:
- オンライン?トランザクション処理(OLTP: Online Transaction Processing):データ?ウェアハウスは、大量の短いデータの処理のために最適化され、データの整合性の維持と高速なクエリが可能になります。一例として、高頻度の取引用プラットフォームで行われるトランザクションが挙げられます。
- オンライン分析処理(OLAP: Online Analytical Processing):データ?ウェアハウスを最適化することで、トランザクション量の比較的少ない複雑なクエリを高速化できます。これは、アナリストが BI レポートを生成するときなどに使用されます。
- 予測型分析:例えば自社の将来予測と「仮定」のシナリオを生成するために、機械学習アルゴリズムを活用して OLAP システムを最適化します。
データ?ウェアハウスはスキーマ?オン?ライトであるため、データ?ウェアハウスにスキーマを追加する前に、実行予定のクエリのタイプを把握しておくことが重要です。多様なデータソースによる複雑さを解消するために、データ?ウェアハウスをセグメント化してデータ?マートとし、CRM のような特定の事業部門にハードウェア/ソフトウェアのリソースを割り当てるという方法もあります。
データ?ウェアハウス、データ?レイク、データ?ハブの违い
これらは似た概念を持つものと思われがちですが、次のような违いがあります。
- データ?ウェアハウス:データ?ウェアハウスは、组织内の复数の非构造化データ?ソースから取り込んだ构造化データを统合?格纳する単一のリポジトリです。
- データ?レイク:組織内(データ?ウェアハウスを含む)のあらゆる構造化および未加工の非構造化データを格納する単一の未精製リポジトリです。このデータから BI のための知見を抽出するには、まずデータを処理する必要があります。
- データハブ:构造化および非构造化データを集中管理型データ?レイヤーに集约し、一元管理可能にする単一のインターフェースです。オペレーショナル?データも処理できる点でデータ?ウェアハウスとは异なり、复数の形式のデータに対応可能な点でデータ?レイクとも异なります。
データ?ハブは、異なるエンドポイントの集合間でのデータ共有に必要なデータ?ガバナンスを提供します。このように、データ?ハブはデータ?レイクとデータ?ウェアハウスを単一のアクセス?レイヤーに集約します。データ処理が抽象化されるため、BI のための知見抽出を一元化された場所で行うことができます。
データ?ウェアハウスにピュア?ストレージが选ばれる理由とは
既存のデータ?ウェアハウスのインフラに OLAP/OLTP パイプラインを新たに追加する場合には、モダン?データ?エクスペリエンスを実現するピュア?ストレージのオールフラッシュ?ストレージ?ソリューションをおすすめします。
ピュア?ストレージの ?FlashBlade?? は、業界初のデータ?ハブとして、データ?ウェアハウスの分析?レポート生成ワークロードに加えて、次のようなデータ?ハブの特長を備えています。
- あらゆるデータ?エンドポイント间でシームレスなデータ共有
- 统合ファイル/オブジェクト?ストレージ
- オペレーショナル?データをリアルタイムで処理
- スケールアウトを念头に置いたアーキテクチャ
- あらゆるデータに多次元的な性能を提供する设计
- ソフトウェアからハードウェアまで、大规模に并列処理