データウェアハウスは、複数のデータソースからのレコードがオンラインビジネス分析処理(OLAP)のために統合されている単一のデータリポジトリです。 これは、データウェアハウスが組織全体の中のすべてのビジネス段階からの要件を満たす必要があることを意味します。 このように、データウェアハウスの設計は非常に複雑で時間がかかるため、エラーが発生しやすいプロセスとなっています。 さらに、ビジネス分析機能は時間とともに変化し、その結果、システムに対する要求も変化していきます。 したがって、データウェアハウスとOLAPシステムは動的であり、設計プロセスは継続的です。
データウェアハウスの設計では、産業界のビューの具体化とは異なる方法を取ります。 それは、データウェアハウスを経営に関連するクエリに答えるような特定のニーズを持つデータベースシステムとして見る。 設計の対象は、複数のデータソースからのレコードをどのように抽出、変換、ロード(ETL)して、データウェアハウスとしてのデータベースに整理するかということになる。
2つのアプローチ
- 「トップダウン」アプローチ
- 「ボトムアップ」アプローチ
トップダウン設計アプローチ
「トップダウン」設計アプローチにおいて、データウェアハウスは主語指向で記述されます。 異なるソースからのデータを検証し、再フォーマットして、データウェアハウスとして正規化(最大3NF)されたデータベースに保存することで、企業全体の時間変動、不揮発性、統合データレポジトリを実現します。 データウェアハウスには、最小粒度のデータである「原子」情報が保存され、そこから特定のビジネステーマや特定の部門に必要なデータを選択して次元のデータマートを構築することができる。 まず情報を収集・統合し、データマート構築のための対象者ごとのビジネス要件を策定する、データ駆動型のアプローチである。 この方法の利点は、単一の統合されたデータソースをサポートすることである。 そのため、データマートが重なっても一貫性を保つことができます。
トップダウン設計の長所
データマートはデータウェアハウスからロードされる。
データウェアハウスから新しいデータマートを開発することは非常に簡単です。
トップダウン設計の欠点
この手法は部門ニーズの変化に柔軟ではありません。
プロジェクトの実施コストが高い。
Bottom-Up Design Approach
「ボトムアップ」アプローチでは、データウェアハウスは「クエリと分析用のトランザクションデータ特定アーキテクチャのコピー」、スタースキーマと呼ばれているとして説明されます。 このアプローチでは、データマートは、特定のビジネスプロセス(または主題)のために必要な報告および分析機能のために最初に作成されます。 したがって、インモンのデータ駆動型アプローチとは対照的に、ビジネス駆動型アプローチである必要がある。
データマートには、最小単位のデータ、および必要に応じて集約されたデータも含まれる。 データウェアハウス用の正規化データベースの代わりに、非正規化次元データベースを適応させ、データウェアハウスのデータ配信要件を満たす。 この方法では、データマートの集合をエンタープライズデータウェアハウスとして利用するために、通常のオブジェクトは異なるデータマートでも同じように表現されると定義した上で、適合次元を考慮してデータマートを構築する必要がある。 ボトムアップ」設計手法の利点は、企業全体のデータウェアハウスを開発するよりも、単一のテーマのデータマート(データウェアハウス)を開発する方がはるかに少ない時間と労力で済むため、ROIが早いということである。 また、失敗のリスクはさらに低くなります。 この方法は、本質的に漸進的なものです。 この方法により、プロジェクトチームは学習し成長することができます。
ボトムアップ設計の利点
ドキュメントを迅速に生成できる。
データウェアハウスは、新しいビジネスユニットに対応するために拡張できる。
新しいデータマートを開発して、他のデータマートに統合するだけである。
ボトムアップ設計のデメリット
ボトムアップアプローチの設計では、データウェアハウスとデータマートの位置が逆になっている。
トップダウン設計アプローチとボトムアップ設計アプローチの区別
トップダウン設計アプローチ | ||
---|---|---|
広大な問題を小さなサブ問題に分割することです。 | Solutions the essential low-level problem and integrates them into a higher one. | |
Inherently architected- not a union of several data marts. | Inherently incremental; can schedule essential data marts first. | |
コンテンツに関する情報を単一で集中保存する。 | 部門の情報を保存。 | |
一元管理されたルールとコントロール. | 部門別のルールとコントロール. | |
重複した情報を含む. | 重複を取り除くことができる.. | 重複を取り除くことができる。 |
反復して実施すればすぐに結果が出るかもしれない。 | 失敗のリスクが少なく、投資対効果が良好で、技術の証明になる。 |