HDFS,全稱Hadoop Distributed File System,意思是分布式文件系統(tǒng)。Hadoop分布式文件系統(tǒng)是指被設計成適合du運行在通用硬件(commodity hardware)上的分zhi布式文件系統(tǒng)。接下來,我們從傳統(tǒng)的文件系統(tǒng)入手,開始學習分布式文件系統(tǒng),以及分布式文件系統(tǒng)是如何演變而來。 查看全文>>
大數(shù)據技術文章2020-10-15 |傳智播客 |HDFS,HDFS是什么,大數(shù)據,HDFS是怎樣工作的
從零開始講解大數(shù)據調度系統(tǒng)構成,集成大數(shù)據計算任務構建大數(shù)據工作流,基于Oozie構建實現(xiàn)企業(yè)級自動化任務開發(fā)。提取碼:esu8 查看全文>>
大數(shù)據技術文章2020-09-11 |傳智播客 |oozie框架基礎視頻教程
從零開始講解大數(shù)據業(yè)務及數(shù)據采集和遷移需求,以案例驅動的方式講解基于Sqoop構建高性能的分布式數(shù)據遷移和同步平臺。提取碼:964s 查看全文>>
大數(shù)據技術文章2020-09-11 |傳智播客 |大數(shù)據遷移方案
對數(shù)據湖概念進行介紹,并通過Delta Lake技術配合Hadoop、Spark完成數(shù)據湖架構的搭建,并介紹通過AWS構建數(shù)據湖的方式。提取碼:afhg 查看全文>>
大數(shù)據技術文章2020-09-11 |傳智播客 |數(shù)據湖架構開發(fā)視頻教程
實戰(zhàn)式教學,綜合運用多種技術,實現(xiàn)從數(shù)據爬取到數(shù)據分析再到數(shù)據可視化全流程。提取碼:oz7r 查看全文>>
大數(shù)據技術文章2020-09-11 |傳智播客 |大數(shù)據疫情防控平臺搭建教程
除了創(chuàng)建表時指定保存數(shù)據時壓縮,在查詢分析過程中,Map的輸出也可以進行壓縮。由于map任務的輸出需要寫到磁盤并通過網絡傳輸?shù)絩educer節(jié)點,所以通過使用LZO、LZ4或者Snappy這樣的快速壓縮方式,是可以獲得性能提升的,因為需要傳輸?shù)臄?shù)據減少了。 查看全文>>
大數(shù)據技術文章2020-07-30 |傳智播客 |Hive2.x壓縮配置教程
通過不斷的訂座但不支付,利用這些虛占的座位進行非法盈利,通過系統(tǒng)日志分析等,發(fā)現(xiàn)官網存在大量的非法占座會員及非會員手機號用戶。 為了限制偽裝技術越來越強的爬蟲訪問和惡意占座行為,需要開發(fā)大數(shù)據防爬工具。 項目采用Lua+Spark+Redis+Hadoop框架搭建,包含狀態(tài)監(jiān)控,反爬指標配置,運營指標監(jiān)控展示等功能。 查看全文>>
大數(shù)據技術文章2020-06-02 |傳智播客 |反爬蟲系統(tǒng)
Spark Streaming是構建在Spark上的實時計算框架,且是對Spark Core API的一個擴展,它能夠實現(xiàn)對流數(shù)據進行實時處理,并具有很好的可擴展性、高吞吐量和容錯性。Spark Streaming具有如下顯著特點。 查看全文>>
大數(shù)據技術文章2020-05-29 |Spark Streaming框架特點 |Spark Streaming框架