隨著Hadoop的不斷發(fā)展,Hadoop生態(tài)體系越來(lái)越完善,現(xiàn)如今已經(jīng)發(fā)展成一個(gè)龐大的生態(tài)體系,Hadoop生態(tài)體系包含了很多子系統(tǒng),下面介紹一些常見(jiàn)的子系統(tǒng),具體如下: 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-11 |傳智教育 |Hadoop生態(tài)圈子系統(tǒng)
在Scala中,它和Java一樣也是擁有方法和函數(shù)。Scala的方法是類的一部分,而函數(shù)是一個(gè)對(duì)象可以賦值給一個(gè)變量。換句話來(lái)說(shuō),在類中定義的函數(shù)即是方法。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-08 |傳智教育 |Scala的方法和函數(shù)
對(duì)于迭代式計(jì)算和交互式數(shù)據(jù)挖掘,RDD可以將中間計(jì)算的數(shù)據(jù)結(jié)果保存在內(nèi)存中,當(dāng)Spark集群中的某一個(gè)節(jié)點(diǎn)由于宕機(jī)導(dǎo)致數(shù)據(jù)丟失,就可以通過(guò)Spark中的RDD進(jìn)行容錯(cuò)恢復(fù)已經(jīng)丟失的數(shù)據(jù)。RDD提供了兩種故障恢復(fù)的方式,分別是血統(tǒng)(Lineage)方式和設(shè)置檢查點(diǎn)(checkpoint)方式。下面,我們就來(lái)介紹一下這兩種方式。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-05 |傳智教育 |RDD,操作,spark,RDD容錯(cuò)機(jī)制
為什么選擇kafka采集數(shù)據(jù)?大數(shù)據(jù)采集層主要可以使用Flume, Kafka兩種技術(shù)。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-04 |傳智教育 |kafka,數(shù)據(jù)采集
本地和遠(yuǎn)程模式安裝配置方式大致相同,本質(zhì)上是將Hive默認(rèn)的元數(shù)據(jù)存儲(chǔ)介質(zhì)由自帶的Derby數(shù)據(jù)庫(kù)替換為MySQL數(shù)據(jù)庫(kù),這樣無(wú)論在任何目錄下以任何方式啟動(dòng)Hive,只要連接的是同一臺(tái)Hive服務(wù),那么所有節(jié)點(diǎn)訪問(wèn)的元數(shù)據(jù)信息是一致的,從而實(shí)現(xiàn)元數(shù)據(jù)的共享。下面就以本地模式為例,講解安裝過(guò)程。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-04 |傳智教育 |Hive安裝,Hive本地,安裝Hive遠(yuǎn)程安裝
HBase數(shù)據(jù)庫(kù)最常見(jiàn)的操作就是讀寫(xiě)數(shù)據(jù),接下來(lái),針對(duì)HBase讀寫(xiě)數(shù)據(jù)的流程進(jìn)行詳細(xì)介紹。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-04 |傳智教育 |HBase讀寫(xiě)數(shù)據(jù),HBase
與其他語(yǔ)言相比,Scala中的所有值都有一個(gè)類型,包括數(shù)值和函數(shù)。接下來(lái),通過(guò)一張圖來(lái)描述Scala數(shù)據(jù)類型的層次結(jié)構(gòu),具體如圖1所示。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-03-04 |傳智教育 |Scala,數(shù)據(jù)類型,Scala基礎(chǔ)語(yǔ)法
Hadoop集群的安裝和配置完成之后。并不能直接啟動(dòng)集群,因?yàn)樵诔醮螁?dòng)HDFS集群時(shí),必須對(duì)主節(jié)點(diǎn)進(jìn)行格式化處理,具體指令如下。 查看全文>>
大數(shù)據(jù)技術(shù)文章2021-02-28 |傳智教育 |Hadoop格式化,文件Hadoop集群格式化
北京校區(qū)