Reduce大致分為copy、sort、reduce三個階段,重點在前兩個階段。Copy階段,簡單地拉取數(shù)據(jù)。Reduce進程啟動一些數(shù)據(jù)copy線程(Fetcher),通過HTTP方式請求maptask 獲取屬于自己的文件。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-26 |傳智教育 |ReduceTask的工作機制
完成Scala環(huán)境和IDEA工具的安裝。接下來,就通過打印“Hello World”的例子來演示如何使用IDEA工具開發(fā)Scala程序,具體步驟如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-25 |傳智教育 |開發(fā)Scala程序的步驟
通常,在接收到source的數(shù)據(jù)后,應(yīng)該立刻生成watermark;但是,也可以在接收source后,應(yīng)用簡單的map或者filter操作,然后再生成watermark。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-15 |傳智教育 |watermark生成規(guī)則及其功能
關(guān)系型數(shù)據(jù)和Hive都是支持SQL引擎的數(shù)據(jù)庫;Redis和Hbase都是NoSQL 類型的Key/vale數(shù)據(jù)庫,支持簡單的行列操作,不支持SQL引擎。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-15 |傳智教育 |Redis,傳統(tǒng)數(shù)據(jù)庫,HBase,Hive
嵌入模式下,元數(shù)據(jù)保存在Derby數(shù)據(jù)庫中,且只允許一個會話連接,若嘗試多個會話連接時會報錯。下面講解Hive安裝之嵌入模式的配置步驟。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-15 |傳智教育 |Hive安裝教程
參數(shù)默認false。當(dāng)設(shè)為true,parquet會聚合所有parquet文件的schema,否則是直接讀取parquet summary文件,或者在沒有parquet summary文件時候隨機選擇一個文件的schema作為最終的schema。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-14 |傳智教育 |Spark SQL性能調(diào)優(yōu),操作Spark SQLt調(diào)優(yōu)
Kafka是一個高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它在實時計算系統(tǒng)中有著非常強大的功能。把topic中一個parition大文件分成多個小文件段,通過多個小文件段,就容易定期清除或刪除已經(jīng)消費完文件,減少磁盤占用。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-12 |傳智教育 |Kafka,Kafka數(shù)據(jù)存儲
Hadoop實現(xiàn)join有三種方法,第一種是reduce side join,它是一種最簡單的join方式,其主要思想如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-01-12 |傳智教育 |實現(xiàn)join,Hadoop,大數(shù)據(jù)面試題