奇酷教育大數據培訓 分布式處理技術
來源:
奇酷教育 發表于:
奇酷教育大數據培訓 分布式處理技術分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,
奇酷教育大數據培訓 分布式處理技術分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務—這就是分布式處理系統的定義。
Hadoop,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。
而MapReduce是Google提出的一種云計算的核心計算模式,是一種分布式運算技術,也是簡化的分布式編程模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式, 在數據被分割后通過Map 函數的程序將數據映射成不同的區塊,分配給計算機機群處理達到分布式運算的效果,在通過Reduce 函數的程序將結果匯整,從而輸出開發者需要的結果。
再來看看Hadoop的特性,第一,它是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。其次,Hadoop 是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴于社區服務器,因此它的成本比較低,任何人都可以使用。
你也可以這么理解Hadoop的構成,Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+……Others
Hadoop用到的一些技術如下:
HDFS: Hadoop分布式文件系統(Distributed File System) - HDFS (HadoopDistributed File System)
MapReduce:并行計算框架
HBase: 類似Google BigTable的分布式NoSQL列數據庫。
Hive:數據倉庫工具,由Facebook貢獻。
Zookeeper:分布式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。
Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。
Pig:大數據分析平臺,為用戶提供多種接口。
Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集群。
Sqoop:用于在Hadoop與傳統的數據庫間進行數據的傳遞。