更新時(shí)間:2022年11月15日17時(shí)47分 來源:傳智教育 瀏覽次數(shù):
有界數(shù)據(jù)集指的是有明確的開始和明確的結(jié)束的數(shù)據(jù),例如JSON文件、CSV文件、TXT文件、MySQL表格、Excel表格都是有界數(shù)據(jù)集,當(dāng)你用它的時(shí)候,有明確的數(shù)據(jù)開始和明確的數(shù)據(jù)結(jié)束。對(duì)有界數(shù)據(jù)集的處理,從開始就是明確了范圍的。我們將這種處理稱為批處理,同時(shí)數(shù)據(jù)有邊界時(shí)(不會(huì)再產(chǎn)生新的數(shù)據(jù))的計(jì)算,稱之為離線計(jì)算。
無界數(shù)據(jù)是有明確的開始,但沒有明確的結(jié)束的數(shù)據(jù),有源源不斷的數(shù)據(jù)進(jìn)來等待被處理。有明確的開始,沒有明確的結(jié)束,這樣的數(shù)據(jù)我們稱為數(shù)據(jù)流,那有哪些無界數(shù)據(jù)流呢?
- Kafka
Kafka中的topic的某個(gè)分區(qū)可以算是無界數(shù)據(jù)流。
- 數(shù)據(jù)有明確的開始:offset從0開始
- 沒有明確的結(jié)束:offset最大是多少?不知道,來一條數(shù)據(jù)加一個(gè)
對(duì)消費(fèi)者來說:
- 數(shù)據(jù)的開始起于:消費(fèi)者啟動(dòng)的那一刻
- 數(shù)據(jù)的結(jié)束起于:不確定啥時(shí)候結(jié)束,有數(shù)據(jù)就繼續(xù)干活,沒數(shù)據(jù)就等待數(shù)據(jù)
> 無界數(shù)據(jù)流的處理,由于沒有明確的結(jié)束點(diǎn),一般稱之為:流(源源不斷)計(jì)算
> 又是因?yàn)閿?shù)據(jù)會(huì)源源不斷的到來的特性,所以不能斷網(wǎng),不能叫離線計(jì)算,也稱之為:在線計(jì)算、實(shí)時(shí)計(jì)算
> 批處理:從運(yùn)行的那一刻開始,就一定會(huì)結(jié)束(正常情況)
> 流計(jì)算:從運(yùn)行的那一刻開始,就沒想過結(jié)束(正常情況、報(bào)錯(cuò)宕機(jī)不考慮)
北京校區(qū)