更新時(shí)間:2020年12月28日17時(shí)25分 來(lái)源:傳智教育 瀏覽次數(shù):
Spark Streaming支持從多種數(shù)據(jù)源獲取數(shù)據(jù),包括Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及TCP Sockets數(shù)據(jù)源。當(dāng)Spark Streaming從數(shù)據(jù)源獲取數(shù)據(jù)之后,則可以使用諸如map、reduce、join和window等高級(jí)函數(shù)進(jìn)行復(fù)雜的計(jì)算處理,最后將處理的結(jié)果存儲(chǔ)到分布式文件系統(tǒng)、數(shù)據(jù)庫(kù)中,最終利用實(shí)時(shí)Web儀表板進(jìn)行展示。Spark Streaming支持的輸入、輸出源如圖1所示。
圖1 Spark Streaming支持的輸入、輸出數(shù)據(jù)源
為了可以深入的理解Spark Streaming,接下來(lái),通過(guò)一張圖對(duì)Spark Streaming的內(nèi)部工作原理進(jìn)行詳細(xì)講解,如圖2所示。
圖2 Spark Streaming工作原理
在圖2中,Spark Streaming先接收實(shí)時(shí)輸入的數(shù)據(jù)流,并且將數(shù)據(jù)按照一定的時(shí)間間隔分成一批批的數(shù)據(jù),每一段數(shù)據(jù)都轉(zhuǎn)變成Spark中的RDD,接著交由Spark引擎進(jìn)行處理,最后將處理結(jié)果數(shù)據(jù)輸出到外部?jī)?chǔ)存系統(tǒng)。
猜你喜歡:
Spark生態(tài)系統(tǒng)包含哪些組件?【大數(shù)據(jù)培訓(xùn)】
RDD是如何操作數(shù)據(jù)轉(zhuǎn)換的?RDD轉(zhuǎn)換算子API示例
2020-12-21Scala語(yǔ)言是什么?有什么特點(diǎn)?如何安裝?
2020-12-21怎樣使用Spark Shell來(lái)讀取HDFS文件?
2020-12-21Scala的控制結(jié)構(gòu)語(yǔ)句有幾種?各語(yǔ)句的語(yǔ)法格式是什么?
2020-12-17IDEA工具開(kāi)發(fā)WordCount單詞計(jì)數(shù)程序的相關(guān)步驟有哪些?
2020-12-17Scala的聲明值和變量【大數(shù)據(jù)文章】
2020-12-17北京校區(qū)