教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Hadoop數(shù)據(jù)倉庫有哪些特征?【Hadoop數(shù)倉概述】

更新時間:2023年01月03日14時44分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

數(shù)據(jù)倉庫(英語:Data Warehouse,簡稱數(shù)倉、DW),是一個用于存儲、分析、報告的數(shù)據(jù)系統(tǒng)。數(shù)據(jù)倉庫的目的是構建面向分析的集成化數(shù)據(jù)環(huán)境,分析結果為企業(yè)提供決策支持(Decision Support)。

數(shù)據(jù)倉庫本身并不“生產(chǎn)”任何數(shù)據(jù),其數(shù)據(jù)來源于不同外部系統(tǒng); 同時數(shù)據(jù)倉庫自身也不需要“消費”任何的數(shù)據(jù),其結果開放給各個外部應用使用。

Hadoop數(shù)據(jù)倉庫的主要特征有面向主題性、集成性、非易失性和時變性,接下來對這四個特性做詳細介紹。

面向主題性(Subject-Oriented)

主題是一個抽象的概念,是較高層次上企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。在邏輯意義上,它是對應企業(yè)中某一宏觀分析領域所涉及的分析對象。

傳統(tǒng)OLTP系統(tǒng)對數(shù)據(jù)的劃分并不適用于決策分析。而基于主題組織的數(shù)據(jù)則不同,它們被劃分為各自獨立的領域,每個領域有各自的邏輯內涵但互不交叉,在抽象層次上對數(shù)據(jù)進行完整、一致和準確的描述。

1672394027869_保險性.png

集成性(Integrated)

主題相關的數(shù)據(jù)通常會分布在多個操作型系統(tǒng)中,彼此分散、獨立、異構。因此在數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,對數(shù)據(jù)進行抽取、清理、轉換和匯總,這一步是數(shù)據(jù)倉庫

建設中最關鍵、最復雜的一步,所要完成的工作有: 要統(tǒng)一源數(shù)據(jù)中所有矛盾之處;如字段的同名異義、異名同義、單位不統(tǒng)一、字長不一致等等。

進行數(shù)據(jù)綜合和計算。數(shù)據(jù)倉庫中的數(shù)據(jù)綜合工作可以在從原有數(shù)據(jù)庫抽取數(shù)據(jù)時生成,但許多是在數(shù)據(jù)倉庫內部生成的,即進入數(shù)據(jù)倉庫以后進行綜合生成的。

下圖說明了保險公司綜合數(shù)據(jù)的簡單處理過程,其中數(shù)據(jù)倉庫中與“承保”主題有關的數(shù)據(jù)來自于多個不同的操作 型系統(tǒng)。

這些系統(tǒng)內部數(shù)據(jù)的命名可能不同,數(shù)據(jù)格式也可能不同。把不同來源的數(shù)據(jù)存儲到數(shù)據(jù)倉庫之前,需要去除這些不一致。

1672394310574_集成性.png

非易失性、非異變性(Non-Volatile)

數(shù)據(jù)倉庫是分析數(shù)據(jù)的平臺,而不是創(chuàng)造數(shù)據(jù)的平臺。我們是通過數(shù)倉去分析數(shù)據(jù)中的規(guī)律,而不是去創(chuàng)造修改其中的規(guī)律。因此數(shù)據(jù)進入數(shù)據(jù)倉庫后,它便穩(wěn)定且不會改變。

數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當長的時間內歷史數(shù)據(jù)的內容,數(shù)據(jù)倉庫的用戶對數(shù)據(jù)的操作大多是數(shù)據(jù)查詢或比較復雜的挖掘,一旦數(shù)據(jù)進入數(shù)據(jù)倉庫以后,一般情況下被較長時間保留。

數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少。

時變性(Time-Variant)

數(shù)據(jù)倉庫包含各種粒度的歷史數(shù)據(jù),數(shù)據(jù)可能與某個特定日期、星期、月份、季度或者年份有關。當業(yè)務變化后會失去時效性。因此數(shù)據(jù)倉庫的數(shù)據(jù)需要隨著時間更新,以適應決策的需要。

從這個角度講,數(shù)據(jù)倉庫建設是一個項目,更是一個過程。



0 分享到:
和我們在線交談!