更新時間:2023年02月23日14時31分 來源:傳智教育 瀏覽次數(shù):
Apache Spark是用于大規(guī)模數(shù)據(jù)(large-scala data)處理的統(tǒng)一(unified)分析引擎。簡單來說,Spark是一款分布式的計算框架,用于調(diào)度成百上千的服務(wù)器集群,計算TB、PB乃至EB級別的海量數(shù)據(jù)。Spark作為全球頂級的分布式計算框架,支持眾多的編程語言進(jìn)行開發(fā)。而Python語言,則是Spark重點支持的方向。
在Spark官方網(wǎng)站上,第一建議語言為python。Spark對Python語言的支持,重點體現(xiàn)在,Python第三方庫:PySpark之上。PySpark是由Spark官方開發(fā)的Python語言第三方庫。Python開發(fā)者可以使用pip程序快速的安裝PySpark并像其它三方庫那樣直接使用。
Python應(yīng)用場景和就業(yè)方向是十分豐富的,其中,最為亮點的方向為大數(shù)據(jù)開發(fā)和人工智能。大數(shù)據(jù)是Python的高薪就業(yè)方向,而Spark(PySpark)技術(shù)是大數(shù)據(jù)的核心技術(shù)棧。