更新時間:2019-09-09 10:27:51 來源:動力節點 瀏覽2209次
隨著央視新聞天天說大數據,很多人紛紛開始關注大數據和Hadoop以及數據挖掘和數據可視化了。什么是Hadoop?
ApacheHadoop是一款支持數據密集型分布式應用并以Apache2.0許可協議發布的開源軟件框架。Hadoop框架透明地為應用提供可靠性和數據移動。它實現了名為MapReduce的編程范式:應用程序被分割成許多小部分,而每個部分都能在集群中的任意節點上執行或重新執行。
Hadoop市場現狀
開發人才目前比較匱乏,基本都集中在互聯網。維護人才我覺得互聯網外的行業一段時間內基本不用考慮,不是太多了,而是根本沒有。Hadoop和云計算最后拼的就是運維,大規模分布式系統的運維人才極難培養。
Hadoop版本的選擇
目前為止,作為半只腳邁進Hadoop大門的人,我建議大家還是選擇Hadoop2.x用。
Hadoop2相比較于Hadoop1.x來說,HDFS的架構與MapReduce的都有較大的變化,且速度上和可用性上都有了很大的提高,Hadoop2中有兩個重要的變更:
HDFS的NameNodes可以以集群的方式布署,增強了NameNodes的水平擴展能力和可用性;
MapReduce將JobTracker中的資源管理及任務生命周期管理(包括定時觸發及監控),拆分成兩個獨立的組件,并更名為YARN(YetAnotherResourceNegotiator)。
核心概念
Hadoop項目主要包含了以下四個模塊:
Hadoop通用模塊(HadoopCommon):為其他Hadoop模塊提供支持的公共實用程序。
Hadoop分布式文件系統(HDFS,HadoopDistributedFileSystem):提供對應用程序數據的高吞吐量訪問的分布式文件系統。
HadoopYARN:任務調度和集群資源管理框架。
HadoopMapReduce:基于YARN的大規模數據集并行計算框架。
對于初次學習Hadoop的用戶而言,應重點關注HDFS和MapReduce。作為一個分布式計算框架,HDFS承載了該框架對于數據的存儲需求,而MapReduce滿足了該框架對于數據的計算需求。
下圖是Hadoop集群的基本架構:
部署Hadoop
Hadoop主要有以下三種部署模式:
單機模式:在單臺計算機上以單個進程的模式運行。
偽分布式模式:在單臺計算機上以多個進程的模式運行。該模式可以在單節點下模擬“多節點”的場景。
完全分布式模式:在多臺計算機上分別以單個進程的模式運行。
具體的部署步驟以及詳細的教程大家可以戳我查看。
今天跟大家分享的這個教程,主要包含以下知識點:
1:Hadoop簡介與安裝部署
1:Hadoop系統部署
2:HDFS架構與操作
3:MapReduce原理與實踐
2:使用MapReduce進行日志分析
4:YARN架構
3:用Hadoop計算圓周率
5:HBase基礎
4:HBase數據導入
6:Sqoop數據遷移
5:HBase實現Web日志場景數據處理
7:Solr基礎實戰
8:Hive基礎實戰
6:導入數據到Hive
9:Flume基礎實戰
10:Flume、HDFS和Hive實現日志收集和分析
7:用Flume和MapReduce進行日志分析
11:Kafka基礎實戰
8:按需部署Kafka
12:使用Flume和Kafka實現實時日志收集
13:Pig基礎實戰
關于該教程的學習,你需要有一定的計算機基礎和Java基礎,并且對Hadoop感興趣,以上就是動力Java培訓機構小編介紹的“Hadoop入門基礎教程,漲工資就靠它了”的內容,希望對大家有幫助,如有疑問,請在線咨詢,有專業老師隨時為你服務。
0基礎 0學費 15天面授
有基礎 直達就業
業余時間 高薪轉行
工作1~3年,加薪神器
工作3~5年,晉升架構
提交申請后,顧問老師會電話與您溝通安排學習