更新時(shí)間:2023年11月17日16時(shí)38分 來源:傳智教育 瀏覽次數(shù):
針對(duì)網(wǎng)站流量日志分析系統(tǒng)項(xiàng)目,可以將數(shù)據(jù)倉庫設(shè)計(jì)為星狀模式,使用一張事實(shí)表ods_weblog_origin(俗稱窄表)來存儲(chǔ)由MapReduce清洗之后的數(shù)據(jù),表結(jié)構(gòu)如表11-2所示。
表11-2 ods_weblog_origin
從表11-3可以看出,上述字段即為MapReduce初步預(yù)處理后的數(shù)據(jù)字段。ods_weblog_origin表名前綴ods(Operational Data Store)是指操作型數(shù)據(jù)存儲(chǔ),作用是為使用者提供當(dāng)前數(shù)據(jù)狀態(tài),且具有及時(shí)性、操作性和集成性的全體數(shù)據(jù)信息。
ods_weblog_origin表是指對(duì)應(yīng)原始數(shù)據(jù)的表,字段與數(shù)據(jù)產(chǎn)生映射,雖然該表記錄了全部數(shù)據(jù),但是并不利于數(shù)據(jù)分析,為了細(xì)化分析數(shù)據(jù),通常會(huì)把窄表中融合各種信息的數(shù)據(jù)進(jìn)行分隔,提取出新字段,將窄表分解為寬表,信息更加詳細(xì),如將ods_weblog_origin表中time_local字段拆分為dw_weblog_detail(俗稱寬表),表結(jié)構(gòu)如表11-3所示。
從表11-3可以看出,dw_weblog_detail表將數(shù)據(jù)進(jìn)一步細(xì)分,方便后期進(jìn)行數(shù)據(jù)分析。表名前綴dw(data warehouse)即數(shù)據(jù)倉庫,它是面向主題的,反映歷史數(shù)據(jù)變化,用于支撐管理決策的事實(shí)表。
完成事實(shí)表設(shè)計(jì)后,結(jié)合實(shí)際業(yè)務(wù)需求設(shè)計(jì)維度表,如本章案例主要講解日均PV量(page visits,頁面瀏覽量),因此,對(duì)應(yīng)設(shè)計(jì)的維度表如表11-4所示。
表11-3 dw_weblog_detail
表11-4 t_avgpv_num
表11-4結(jié)構(gòu)簡單,這里只設(shè)計(jì)了日期和平均PV值兩個(gè)字段,讀者也可以自行設(shè)計(jì)相關(guān)業(yè)務(wù),如根據(jù)IP分析所在的地域制定訪客地域維度,根據(jù)客戶終端標(biāo)識(shí)制定訪客終端維度等多角度進(jìn)行數(shù)據(jù)分析。
北京校區(qū)