數(shù)據(jù)分析怎樣進(jìn)行數(shù)據(jù)清洗？【詳細(xì)講解】

更新時(shí)間:2022年08月30日18時(shí)30分來(lái)源:傳智教育瀏覽次數(shù):

數(shù)據(jù)清洗的基本流程一共分為5個(gè)步驟，分別是數(shù)據(jù)分析、定義數(shù)據(jù)清洗的策略和規(guī)則、搜尋并確定錯(cuò)誤實(shí)例、糾正發(fā)現(xiàn)的錯(cuò)誤以及干凈數(shù)據(jù)回流。下面通過(guò)一張圖描述數(shù)據(jù)清洗的基本流程，具體如圖所示。

數(shù)據(jù)清洗的基本流程

接下來(lái)針對(duì)圖中數(shù)據(jù)清洗的基本流程進(jìn)行詳細(xì)講解。

1.數(shù)據(jù)分析

數(shù)據(jù)分析是數(shù)據(jù)清洗的前提和基礎(chǔ)，通過(guò)人工檢測(cè)或者計(jì)算機(jī)分析程序的方式對(duì)原始數(shù)據(jù)源的數(shù)據(jù)進(jìn)行檢測(cè)分析，從而得出原始數(shù)據(jù)源中存在的數(shù)據(jù)質(zhì)量問(wèn)題。

2.定義數(shù)據(jù)清洗的策略和規(guī)則

根據(jù)數(shù)據(jù)分析出的數(shù)據(jù)源個(gè)數(shù)和數(shù)據(jù)源中的“臟”數(shù)據(jù)程度定義數(shù)據(jù)清洗策略和規(guī)則，并選擇合適的數(shù)據(jù)清洗算法。

3.搜尋并確定錯(cuò)誤實(shí)例

搜尋并確定錯(cuò)誤實(shí)例步驟包括自動(dòng)檢測(cè)屬性錯(cuò)誤和檢測(cè)重復(fù)記錄的算法。

手工檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤需要花費(fèi)大量的時(shí)間、精力以及物力，并且該過(guò)程本身很容易出錯(cuò)，所以需要使用高效的方法自動(dòng)檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤，主要檢測(cè)方法有基于統(tǒng)計(jì)的方法、聚類(lèi)方法和關(guān)聯(lián)規(guī)則方法。

檢測(cè)重復(fù)記錄的算法可以對(duì)兩個(gè)數(shù)據(jù)集或者一個(gè)合并后的數(shù)據(jù)集進(jìn)行檢測(cè)，從而確定同一個(gè)現(xiàn)實(shí)實(shí)體的重復(fù)記錄，即匹配過(guò)程。檢測(cè)重復(fù)記錄的算法有基本的字段匹配算法、遞歸字段匹配算法等。

4.糾正發(fā)現(xiàn)的錯(cuò)誤

根據(jù)不同的“臟”數(shù)據(jù)存在形式的不同，執(zhí)行相應(yīng)的數(shù)據(jù)清洗和轉(zhuǎn)換步驟解決原始數(shù)據(jù)源中存在的質(zhì)量問(wèn)題。需要注意的是，對(duì)原始數(shù)據(jù)源進(jìn)行數(shù)據(jù)清洗時(shí)，應(yīng)該將原始數(shù)據(jù)源進(jìn)行備份，以防需要撤銷(xiāo)清洗操作。

為了便于處理單數(shù)據(jù)源、多數(shù)據(jù)源以及單數(shù)據(jù)源與其他數(shù)據(jù)源合并的數(shù)據(jù)質(zhì)量問(wèn)題，一般需要在各個(gè)數(shù)據(jù)源上進(jìn)行數(shù)據(jù)轉(zhuǎn)換操作，具體如下。

(1)從原始數(shù)據(jù)源的屬性字段中抽取值(屬性分離)

原始數(shù)據(jù)源的屬性一般包含很多信息，這些信息有時(shí)需要細(xì)化成多個(gè)屬性，便于后續(xù)清洗重復(fù)記錄。

(2)確認(rèn)并改正

確認(rèn)并改正輸入和拼寫(xiě)的錯(cuò)誤，然后盡可能地使該步驟自動(dòng)化。若是基于字典查詢(xún)拼寫(xiě)錯(cuò)誤，則更利于發(fā)現(xiàn)拼寫(xiě)的錯(cuò)誤。

(3)標(biāo)準(zhǔn)化

為了便于記錄實(shí)例匹配和合并，應(yīng)該將屬性值轉(zhuǎn)換成統(tǒng)一格式。

5.干凈數(shù)據(jù)回流

當(dāng)數(shù)據(jù)被清洗后，干凈的數(shù)據(jù)替代原始數(shù)據(jù)源中的“臟”數(shù)據(jù)，這樣可以提高信息系統(tǒng)的數(shù)據(jù)質(zhì)量，還可避免將來(lái)再次抽取數(shù)據(jù)后進(jìn)行重復(fù)的清洗工作。

上一篇：怎么在不影響當(dāng)前開(kāi)發(fā)的情況下Debug？ 下一篇：Python大數(shù)據(jù)培訓(xùn)：離散化連續(xù)數(shù)據(jù)